譚永杰,文 敏,朱月琴,屈紅剛
(1.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;2.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037)
地質(zhì)數(shù)據(jù)的大數(shù)據(jù)特性研究
譚永杰1,2,文 敏1,2,朱月琴1,2,屈紅剛1,2
(1.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;2.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037)
大數(shù)據(jù)發(fā)展應(yīng)用已成為當(dāng)前社會(huì)和學(xué)術(shù)界的研究熱點(diǎn)。本文基于地質(zhì)工作實(shí)際情況,從地質(zhì)數(shù)據(jù)的采集、匯聚、處理、成果綜合等環(huán)節(jié),系統(tǒng)分析了地質(zhì)數(shù)據(jù)的形成過程及其數(shù)據(jù)特性,認(rèn)為地質(zhì)工作是一個(gè)大數(shù)據(jù)的完整生態(tài)過程,其形成的數(shù)據(jù)具有多元(源)、多模態(tài)、異構(gòu)、高度時(shí)空性、大容量高相關(guān)、低價(jià)值密度、復(fù)雜性與不確定性等特點(diǎn),既具有大數(shù)據(jù)的共有特性,又有其自身特點(diǎn),是大數(shù)據(jù)的重要組成部分,并以此提出了目前地質(zhì)大數(shù)據(jù)發(fā)展應(yīng)用中的主要技術(shù)問題。
大數(shù)據(jù);地質(zhì)大數(shù)據(jù);數(shù)據(jù)特性;關(guān)鍵技術(shù)問題
大數(shù)據(jù)已成為當(dāng)前社會(huì)和技術(shù)發(fā)展的熱點(diǎn)。2012年,美國發(fā)布“大數(shù)據(jù)研發(fā)計(jì)劃”[1],美國地質(zhì)調(diào)查局等6個(gè)聯(lián)邦部門和機(jī)構(gòu)參與,旨在提高和改進(jìn)從海量和復(fù)雜的數(shù)據(jù)中,獲取信息和知識(shí)的能力。我國于2015年由國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,國土資源部、農(nóng)業(yè)部、環(huán)保部、貴州省、北京市等紛紛印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展的實(shí)施意見。大數(shù)據(jù)發(fā)展和應(yīng)用受到國內(nèi)外各級(jí)政府、社會(huì)及學(xué)術(shù)界、產(chǎn)業(yè)界高度關(guān)注。
中國地質(zhì)調(diào)查局(以下簡稱地調(diào)局)高度重視大數(shù)據(jù)技術(shù)及其地質(zhì)應(yīng)用。2015年至今,連續(xù)3年列為地調(diào)局工作的重中之重。2014年,地調(diào)局開始設(shè)立地質(zhì)大數(shù)據(jù)與信息服務(wù)工程,開展地質(zhì)大數(shù)據(jù)的相關(guān)研究和應(yīng)用工作,工作內(nèi)容包括地質(zhì)大數(shù)據(jù)的頂層設(shè)計(jì)、關(guān)鍵技術(shù)研究,涵蓋地質(zhì)大數(shù)據(jù)的采集、匯聚管理、處理應(yīng)用與服務(wù)全過程。在地質(zhì)大數(shù)據(jù)的技術(shù)體系、建設(shè)框架和部分基礎(chǔ)理論、方法及應(yīng)用等方面形成了一系列成果[2-3]。但地質(zhì)數(shù)據(jù)的數(shù)據(jù)特性、其與大數(shù)據(jù)的關(guān)系等一系列問題,還存在著較大的爭論,這也影響了地質(zhì)大數(shù)據(jù)的進(jìn)一步發(fā)展,因此,本文通過對地質(zhì)數(shù)據(jù)的深入思考、系統(tǒng)歸納,初步形成了一些認(rèn)識(shí)。
大數(shù)據(jù)系統(tǒng)通常涉及多個(gè)不同的階段[4-5],最廣為接受的是4個(gè)連續(xù)階段[6],包括數(shù)據(jù)生成、獲取、存儲(chǔ)和分析。地質(zhì)工作旨在采用7種主要手段,包括野外調(diào)查、鉆探槽探等山地工程、地球物理探測、地球化學(xué)探測、遙感、分析測試和綜合研究,研究探索地球表層及地球的物質(zhì)構(gòu)成、結(jié)構(gòu)及演化。基于以上的工作手段,大范圍長時(shí)間采集巨量地質(zhì)數(shù)據(jù),利用項(xiàng)目匯聚、資料匯交等方法,形成穩(wěn)定匯聚,而地質(zhì)成果均來自對已有數(shù)據(jù)和新采集數(shù)據(jù)的分析綜合。因此,地質(zhì)工作是一個(gè)巨量數(shù)據(jù)采集、匯聚存儲(chǔ)管理、分析利用與成果綜合的大數(shù)據(jù)完整生態(tài)過程。
2.1地質(zhì)數(shù)據(jù)采集
地質(zhì)數(shù)據(jù)的采集逐步走向現(xiàn)代化。隨著計(jì)算機(jī)、物聯(lián)網(wǎng)、對地觀測、LBS等技術(shù)發(fā)展,傳統(tǒng)的野外調(diào)查、物探、化探等手段從模擬到數(shù)字化,信息化水平不斷提高;野外地質(zhì)調(diào)查正結(jié)合“3S”、大數(shù)據(jù)等技術(shù)走向智能化[7];國家地下水、地質(zhì)災(zāi)害等監(jiān)測網(wǎng)絡(luò)建設(shè)、航空、航天遙感等新型采集平臺(tái)的發(fā)展,使得地質(zhì)數(shù)據(jù)采集走向現(xiàn)代化。
地質(zhì)數(shù)據(jù)的采集逐步走向大范圍高精度。更高空間光譜時(shí)間分辨率的遙感衛(wèi)星、萬米大陸深鉆、“海馬”深海潛水器等地質(zhì)裝備研發(fā),使的地質(zhì)數(shù)據(jù)采集逐步走向深空、深地與深海,數(shù)據(jù)采集范圍越來越廣、效率與精度越來越高。
利用各種手段采集地球各圈層數(shù)據(jù)是地質(zhì)工作的首要任務(wù)。
2.1.1 多種采集手段
多種采集手段包括野外調(diào)查、鉆探槽探等山地工程、地球物理探測、地球化學(xué)探測、遙感、分析測試和綜合研究等主要手段。野外調(diào)查是地質(zhì)人員到野外現(xiàn)場進(jìn)行實(shí)地觀察,包括點(diǎn)觀察、路線觀察和剖面測制,記錄描述各種地質(zhì)現(xiàn)象;鉆探槽探等山地工程是利用鉆機(jī)、人工挖槽等方式,對地球及表層研究進(jìn)行一定范圍的揭露,方便地質(zhì)人員現(xiàn)場觀察和其他探測手段的實(shí)施,常常形成鉆孔數(shù)據(jù)和測井?dāng)?shù)據(jù);地球物理探測利用地球及表層物質(zhì)組成的物性差異,采用物理的方法進(jìn)行探測,主要有電法、磁法、地震勘探、重力勘探、放射性勘探、地球物理測井等,形成相應(yīng)的數(shù)據(jù)記錄,分析地球及表層物質(zhì)組成及結(jié)構(gòu);地球化學(xué)探測利用地球及表層物質(zhì)化學(xué)組成差異,采用地球化學(xué)采樣及分析的方法研究地球及表層物質(zhì)組成及結(jié)構(gòu),形成相應(yīng)的數(shù)據(jù)記錄;遙感是利用地球及表層物質(zhì)物性和光性的差異,制作一定的傳感器,在不和觀察物直接接觸的情況下,分析地球及表層物質(zhì)組成及結(jié)構(gòu),目前主要有多光譜遙感、紅外遙感、高光譜遙感、測試?yán)走_(dá)等,形成海量的遙感數(shù)據(jù);分析測試是對野外觀察或鉆探、槽探中采取的地物樣品進(jìn)行物理和化學(xué)分析,形成物理、化學(xué)分析測試數(shù)據(jù),研究地球及表層物質(zhì)組成及結(jié)構(gòu);綜合分析是對各種手段采集數(shù)據(jù)的綜合研究,形成成果數(shù)據(jù)。
2.1.2 多層次采集平臺(tái)
地質(zhì)數(shù)據(jù)采集平臺(tái)多樣,包括航空、航天、地表(下)、海洋等類型。其中,航空平臺(tái)如固定翼飛機(jī)、直升飛機(jī)、無人機(jī)及其機(jī)載探測設(shè)備;航天平臺(tái)包括光學(xué)、重力等多類型遙感衛(wèi)星及其載荷等;地表(下)平臺(tái)包括在常規(guī)地面、礦井下及鉆孔中開展的各種調(diào)查和勘探;海洋平臺(tái)包括海洋地質(zhì)調(diào)查船、海洋鉆探平臺(tái)、深海潛水器等各類平臺(tái)。
2.1.3 多尺度基本單元
地質(zhì)探測的一組數(shù)據(jù)代表著一定的空間大小,也就是說地質(zhì)觀察研究基本單元的空間尺度是不一樣的,例如4 km×4 km的化探、15 m×15 m的遙感等,這種描述稱為地質(zhì)數(shù)據(jù)的基本粒度。這樣,地質(zhì)數(shù)據(jù)的精度就有兩種概念,一是數(shù)據(jù)本身精確性;二是描述對象的空間尺度大小(空間分辨率)。
2.2地質(zhì)數(shù)據(jù)匯聚管理
在我國,財(cái)政投入的地質(zhì)工作通過項(xiàng)目、社會(huì)投入的通過資料匯交,形成了穩(wěn)定和較為完整的數(shù)據(jù)匯聚體系,實(shí)現(xiàn)對多專業(yè)多類型巨量數(shù)據(jù)的匯聚管理。從20世紀(jì)80年代頒布《全國地質(zhì)資料匯交管理辦法》,到2002年頒布的《地質(zhì)資料管理?xiàng)l例》(以下簡稱《條例》),國家通過法律形式,對地質(zhì)資料的匯聚形成了穩(wěn)定體系,由全國地質(zhì)資料館、各省級(jí)地質(zhì)資料館及委托保管單位構(gòu)成?!稐l例》規(guī)定,在中華人民共和國領(lǐng)域及管轄的其他海域范圍內(nèi)開展的地質(zhì)工作,都要施行地質(zhì)資料統(tǒng)一匯交。國家財(cái)政投入的地質(zhì)項(xiàng)目,通過項(xiàng)目組織體系完成數(shù)據(jù)匯聚。2016年,地質(zhì)大數(shù)據(jù)工程啟動(dòng)地質(zhì)數(shù)據(jù)匯聚管理系統(tǒng)建設(shè),通過云計(jì)算、互聯(lián)網(wǎng)等信息技術(shù)實(shí)現(xiàn)項(xiàng)目數(shù)據(jù)的云端匯聚,進(jìn)一步提升地質(zhì)數(shù)據(jù)的匯聚管理的效率與質(zhì)量。
2.3地質(zhì)數(shù)據(jù)分析應(yīng)用
2.3.1 大數(shù)據(jù)的重要核心是向數(shù)據(jù)要價(jià)值
地質(zhì)工作采集的各類原始數(shù)據(jù),需要通過各類地學(xué)分析模型與方法工具的加工和轉(zhuǎn)換,才能形成有價(jià)值的地質(zhì)認(rèn)識(shí)或發(fā)現(xiàn)。從地質(zhì)遙感解譯到物化探異常提取等專業(yè)分析,從資源潛力評價(jià)到資源環(huán)境承載力評價(jià)等綜合分析,地質(zhì)成果均來自數(shù)據(jù)的分析利用與成果綜合。
2.3.2 地質(zhì)數(shù)據(jù)均具有重要的分析利用價(jià)值
數(shù)據(jù)的新鮮度(freshness)是數(shù)據(jù)的潛在價(jià)值體現(xiàn)[8]。地球的演變相對人類歷史來說緩慢的,地球演化以萬年及數(shù)十萬年為單元,人們對于地球及表層的勘探記錄僅有數(shù)百年的歷史,歷史上的任何一次地質(zhì)工作形成的成果記錄都具有現(xiàn)實(shí)性,加之地質(zhì)工作比較艱難,成本比較高,因此,地質(zhì)工作特別強(qiáng)調(diào)對已有工作成果的綜合利用。近百年來,探測和積累的地質(zhì)數(shù)據(jù)都有具有重要價(jià)值。
2.3.3 地質(zhì)數(shù)據(jù)分析利用就是一個(gè)大數(shù)據(jù)分析應(yīng)用過程
具體的地質(zhì)工作探測研究的對象是唯一的,采用各種手段對其進(jìn)行探測,只是利用其物質(zhì)組成及結(jié)構(gòu)的不同特性從不同角度進(jìn)行研究認(rèn)識(shí),其理想的結(jié)果應(yīng)該是高度一致,這也是地質(zhì)工作強(qiáng)調(diào)綜合研究的內(nèi)在原因。地質(zhì)工作往往需要地質(zhì)、地球物理、地球化學(xué)、遙感地質(zhì)等多元地質(zhì)數(shù)據(jù)的綜合分析,且地質(zhì)問題都是多因素的復(fù)雜影響,因此多元數(shù)據(jù)的綜合關(guān)聯(lián)分析在地質(zhì)數(shù)據(jù)分析中尤為重要。此外,地震數(shù)據(jù)、遙感數(shù)據(jù)等大規(guī)模數(shù)據(jù)分析處理,需要高性能、分布式的計(jì)算支撐;各類實(shí)時(shí)監(jiān)測數(shù)據(jù)分析,需要采用流數(shù)據(jù)分析等手段;數(shù)據(jù)分析與挖掘等算法在地質(zhì)統(tǒng)計(jì)學(xué)與各類地質(zhì)建模中廣泛應(yīng)用。大數(shù)據(jù)技術(shù)將助力地質(zhì)數(shù)據(jù)分析利用,為解決更綜合、更復(fù)雜的資源環(huán)境問題提供新的解決方案。
李學(xué)龍等[6]將大數(shù)據(jù)分為商業(yè)、網(wǎng)絡(luò)和科學(xué)研究三大領(lǐng)域,并指出在對地觀測等領(lǐng)域需要獲取海量的科學(xué)研究大數(shù)據(jù),且學(xué)科的發(fā)展極度依賴于對這些海量數(shù)據(jù)的分析。地質(zhì)大數(shù)據(jù)具有多元(源)異構(gòu)、多模態(tài)、高度時(shí)空性、大容量高相關(guān)、低價(jià)值密度、復(fù)雜性與不確定性等特點(diǎn),具有大數(shù)據(jù)的共有特征,又有其自身特點(diǎn),對大數(shù)據(jù)相關(guān)研究極具代表性。地質(zhì)大數(shù)據(jù)就是要用大數(shù)據(jù)、云計(jì)算等理念,重新思考與解決地質(zhì)問題,對支撐國家經(jīng)濟(jì)社會(huì)與學(xué)科發(fā)展具有重要作用。不論從大數(shù)據(jù)概念的實(shí)質(zhì),還是從大數(shù)據(jù)概念的演化來看,地質(zhì)數(shù)據(jù)都是屬于大數(shù)據(jù),地質(zhì)大數(shù)據(jù)是國家大數(shù)據(jù)的重要組成部分。
3.1大數(shù)據(jù)的特性
大數(shù)據(jù)目前沒有統(tǒng)一的定義。國際數(shù)據(jù)中心IDC認(rèn)為:大數(shù)據(jù)技術(shù)描述了一個(gè)技術(shù)和體系的新時(shí)代,被設(shè)計(jì)于從大規(guī)模多樣化的數(shù)據(jù)中通過高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價(jià)值[1],并提出“4V”的大數(shù)據(jù)特點(diǎn)。IT分析公司META集團(tuán)提出數(shù)據(jù)的增長是三維的,即容量、多樣性和速度的增長(3Vs)[9],Gartner和多數(shù)產(chǎn)業(yè)界巨頭[10-11]使用“3Vs”模型描述大數(shù)據(jù)。McKinsey公司將大數(shù)據(jù)定義為:超過了典型數(shù)據(jù)庫軟件工具捕獲、存儲(chǔ)、管理和分析數(shù)據(jù)能力的數(shù)據(jù)集。美國國家標(biāo)準(zhǔn)和技術(shù)研究院NIST同樣認(rèn)為:大數(shù)據(jù)是指數(shù)據(jù)的容量、數(shù)據(jù)的獲取速度或者數(shù)據(jù)的表示限制了使用傳統(tǒng)關(guān)系方法對數(shù)據(jù)的分析處理能力,需要使用水平擴(kuò)展的機(jī)制以提高處理效率[12]。從大數(shù)據(jù)概念的形成來看,更加強(qiáng)調(diào)數(shù)據(jù)來源的廣泛性和全社會(huì)的廣泛應(yīng)用??傮w而言,大數(shù)據(jù)是大容量、多樣性、高速增長、低價(jià)值密度,且傳統(tǒng)手段已難于管理和有效發(fā)揮其價(jià)值的、具有社會(huì)廣泛應(yīng)用的數(shù)據(jù)集。
3.2地質(zhì)數(shù)據(jù)的數(shù)據(jù)特性
3.2.1 多元(源)異構(gòu)與多模態(tài)
地質(zhì)工作對象的空間單元是不一樣的,地質(zhì)數(shù)據(jù)代表的基本空間單元是多種尺度的,現(xiàn)有的地質(zhì)數(shù)據(jù)映射多種空間單元。各種手段采集的數(shù)據(jù)、同一類手段不同方法采集的數(shù)據(jù)各自采用不同的數(shù)據(jù)管理方式進(jìn)行存儲(chǔ)管理,形成了多種數(shù)據(jù)源。多種平臺(tái)與手段采集形成各類地質(zhì)數(shù)據(jù),如野外填圖、分析測試等匯聚GIS與結(jié)構(gòu)化數(shù)據(jù),遙感獲取的柵格影像數(shù)據(jù),地質(zhì)報(bào)告的文檔數(shù)據(jù),地質(zhì)環(huán)境災(zāi)害監(jiān)測獲得實(shí)時(shí)點(diǎn)位數(shù)據(jù)等。不同工作平臺(tái)形成不同數(shù)據(jù)格式,不同數(shù)據(jù)組織造成不同數(shù)據(jù)結(jié)構(gòu),地質(zhì)本體描述不一致帶來嚴(yán)重的語義異構(gòu),地質(zhì)數(shù)據(jù)采用的不同空間基準(zhǔn)、空間時(shí)間的不同尺度等,使得形成的地質(zhì)數(shù)據(jù)嚴(yán)重異構(gòu)。同一個(gè)地質(zhì)對象,通過不同的方法或平臺(tái),從不同角度與方式描述,形成了多模態(tài)的地質(zhì)數(shù)據(jù)。
3.2.2 高度時(shí)空性
地質(zhì)數(shù)據(jù)的描述對象是地球,空間屬性是其固有屬性,且在兩個(gè)方面充分體現(xiàn):一方面,地質(zhì)數(shù)據(jù)均是描述特定位置對象的屬性,如某一位置的巖性、地球化學(xué)成分等,脫離了空間位置的地質(zhì)數(shù)據(jù)沒有意義;另一方面,地質(zhì)科學(xué)研究具有明顯的區(qū)域性,研究對象往往帶有明顯的區(qū)域特點(diǎn),如特定區(qū)域內(nèi)的巖石類型、成礦特點(diǎn)等存在明顯區(qū)域特征。
地質(zhì)數(shù)據(jù)的時(shí)間屬性也體現(xiàn)在兩方面:一是地質(zhì)數(shù)據(jù)本身獲取的時(shí)間屬性,任何觀測數(shù)據(jù)都是在某一時(shí)間點(diǎn)獲取的,具有時(shí)間屬性;二是地質(zhì)對象本身的時(shí)間屬性,地球的演化與地質(zhì)對象都具有特定的地質(zhì)年代與時(shí)間點(diǎn),其對于地質(zhì)研究至關(guān)重要,同位素測試地質(zhì)年齡等是獲取對象時(shí)間的重要手段。
地質(zhì)數(shù)據(jù)具有高度的時(shí)空性,加之定義其空間屬性的坐標(biāo)系、投影參數(shù)、探測精度及基本粒度變化多樣,時(shí)間尺度從分秒跨越至數(shù)十萬年,更進(jìn)一步增加了地質(zhì)數(shù)據(jù)的復(fù)雜度。因此,地質(zhì)數(shù)據(jù)的融合分析一定要強(qiáng)調(diào)時(shí)間基準(zhǔn)和空間基準(zhǔn)。
3.2.3 大容量
地質(zhì)工作觀測對象廣闊、手段多樣、探測歷史悠久形成巨量數(shù)據(jù)。目前全國地質(zhì)工作年投入1 000多億元,累計(jì)投入數(shù)萬億元,依托穩(wěn)定的匯聚體系,積累了巨量數(shù)據(jù),現(xiàn)存于各地質(zhì)單位、地質(zhì)工作者和各級(jí)地質(zhì)資料館藏機(jī)構(gòu)。其次,地質(zhì)數(shù)據(jù)采集技術(shù)與手段的提升,使數(shù)據(jù)量呈爆發(fā)式增長,一景幅寬45 km的0.8 m分辨率全色影像達(dá)到1 G,一個(gè)測點(diǎn)面積約12 km2的高密度三維地震測量獲取的原始數(shù)據(jù)達(dá)600 G左右。
3.2.4 高相關(guān)、低價(jià)值密度
地質(zhì)數(shù)據(jù)描述的對象相對穩(wěn)定,所有數(shù)據(jù)均是針對同一客觀對象的不同描述,數(shù)據(jù)間相關(guān)性高,且內(nèi)容多樣,不僅包括本身探測的地質(zhì)數(shù)據(jù),也含有測繪地理數(shù)據(jù),并依附了社會(huì)經(jīng)濟(jì)發(fā)展相關(guān)數(shù)據(jù),對多類型數(shù)據(jù)的綜合與關(guān)聯(lián)分析有重要價(jià)值。相對于巨量的數(shù)據(jù)規(guī)模,其價(jià)值密度偏低,需要科學(xué)高效的方法技術(shù)來管理與利用。
3.2.5 復(fù)雜性與模糊不確定性
地質(zhì)數(shù)據(jù)之間關(guān)系是復(fù)雜的,綜合分析的結(jié)果具有模糊不確定性,主要體現(xiàn)在三個(gè)方面。第一,地球及近表層等數(shù)據(jù)描述對象的高度復(fù)雜與模糊不確定,地球是一個(gè)復(fù)雜巨系統(tǒng),各圈層多因素相互影響,地球演化與各類地質(zhì)現(xiàn)象本身是一個(gè)高度復(fù)雜過程,地質(zhì)規(guī)律或結(jié)論往往存在模糊性。第二,地質(zhì)數(shù)據(jù)與數(shù)據(jù)描述本身的高度復(fù)雜性與模糊性,主要由描述對象的復(fù)雜與定量化困難,人類各種認(rèn)識(shí)手段對地球及近表層的研究對象來說多為間接的,各種手段認(rèn)識(shí)能力有限,加上數(shù)據(jù)巨量、異構(gòu)、高度時(shí)空性等特點(diǎn)造成。第三,地質(zhì)對象與地質(zhì)數(shù)據(jù)的復(fù)雜決定了地質(zhì)數(shù)據(jù)的分析、建模與計(jì)算等都存在高度復(fù)雜性,加上無法采集地球全樣本數(shù)據(jù),因此地質(zhì)數(shù)據(jù)分析結(jié)果大多模糊不確定,對觀測對象的認(rèn)識(shí)是一個(gè)無窮盡的逼近過程。
海量數(shù)據(jù)催生了一種新的科研模式,吉姆·格雷(Jim Gray)提出了數(shù)據(jù)密集型科學(xué)研究的“第四范式”(The Fourth Paradigm)[13],并提出其可能是解決全球性挑戰(zhàn)問題唯一具有系統(tǒng)性的方法。李國杰院士等認(rèn)為未來可能形成數(shù)據(jù)探礦等新興產(chǎn)業(yè)[14]?!秶临Y源大數(shù)據(jù)應(yīng)用發(fā)展實(shí)施意見》提出,發(fā)展智能調(diào)查與監(jiān)測、培育智慧探礦等新業(yè)態(tài)。全面推進(jìn)地質(zhì)大數(shù)據(jù)發(fā)展,深化其在資源潛力評價(jià)、資源環(huán)境承載力評價(jià)、地質(zhì)環(huán)境災(zāi)害監(jiān)測評估等各方面應(yīng)用,勢必成為地質(zhì)工作創(chuàng)新驅(qū)動(dòng)發(fā)展的重要手段,但其分析應(yīng)用仍存在不少科學(xué)與技術(shù)的基本問題。
4.1地質(zhì)數(shù)據(jù)的描述與建模
地質(zhì)大數(shù)據(jù)多元(源)異構(gòu)、多實(shí)體和多空間之間的交互動(dòng)態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復(fù)雜度高,缺乏科學(xué)有效的特征描述與對象建?;A(chǔ),影響其有效組織與分析。需要解決多粒度地質(zhì)實(shí)體抽象方法、異構(gòu)多粒度地質(zhì)大數(shù)據(jù)描述模型、形式化表達(dá)模型等關(guān)鍵問題,以異構(gòu)多粒度地質(zhì)大數(shù)據(jù)構(gòu)建的事物空間來描述從微觀到宏觀的異構(gòu)現(xiàn)實(shí)世界。
4.2多元(源)異構(gòu)大容量地質(zhì)數(shù)據(jù)的有效組織管理
從分布式文件系統(tǒng)GFS[15]等新型文件系統(tǒng),到鍵值(key-value)數(shù)據(jù)庫、Bigtable[16]列式數(shù)據(jù)庫、Mongo DB[17]文檔數(shù)據(jù)庫等No SQL數(shù)據(jù)庫,為大數(shù)據(jù)存儲(chǔ)管理提供了新的方式。傳統(tǒng)方式下地質(zhì)數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作不但低效,而且不利于檢索、查詢、挖掘等應(yīng)用,數(shù)據(jù)組織管理能力極低。異構(gòu)數(shù)據(jù)組織管理的核心問題,包括多樣化碎片化海量地質(zhì)數(shù)據(jù)存儲(chǔ)管理模型、集成共享等。涉及異構(gòu)多粒度地質(zhì)大數(shù)據(jù)的一體化數(shù)據(jù)模型與全生命周期管理等技術(shù),涵蓋異構(gòu)多粒度地質(zhì)大數(shù)據(jù)模型、數(shù)據(jù)生成與轉(zhuǎn)換、存取與索引、管理與查詢、基本操作與基本計(jì)算等。
4.3地質(zhì)數(shù)據(jù)的有效處理與融合挖掘
傳統(tǒng)統(tǒng)計(jì)分析分為描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì)。多元統(tǒng)計(jì)分析包括回歸分析、因子分析、聚類分析和判別分析等[18],為地質(zhì)統(tǒng)計(jì)分析奠定了理論基礎(chǔ)。數(shù)據(jù)挖掘技術(shù)及一系列新的數(shù)據(jù)處理模型也為大數(shù)據(jù)分析處理提供了新的思路和工具,C4.5、k-means、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法已經(jīng)在人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域得到應(yīng)用[19],通用處理模型如MapReduce[20]、圖處理模型如Google的Pregel[21]、流處理模型如Storm等。但是地質(zhì)數(shù)據(jù)的多源異質(zhì)、基準(zhǔn)不一致、特征多元、語義復(fù)雜等問題,結(jié)合地質(zhì)專家知識(shí)、地學(xué)計(jì)算、地學(xué)專業(yè)模型等地質(zhì)大數(shù)據(jù)分析專業(yè)特點(diǎn),使得地質(zhì)大數(shù)據(jù)的有效處理與融合挖掘比較困難,多模態(tài)地質(zhì)時(shí)空對象分析、不同模態(tài)不同粒度地質(zhì)數(shù)據(jù)融合、唯一地質(zhì)對象的多數(shù)據(jù)綜合分析建模等問題有待解決。
4.4地質(zhì)數(shù)據(jù)的可視化與服務(wù)于有效決策
復(fù)雜性及結(jié)果模糊性為有效決策與可視化帶來困難。地質(zhì)大數(shù)據(jù)有效輔助決策是指通過分析應(yīng)用實(shí)現(xiàn)知識(shí)獲取,從而對決策給予支撐。數(shù)據(jù)可視化的目標(biāo)是以圖形方式清晰有效地展示信息[22],使結(jié)果更直觀以便于洞察[23]。然而地質(zhì)現(xiàn)象本身的復(fù)雜與模糊不確定性、地質(zhì)大數(shù)據(jù)描述及分析結(jié)果的復(fù)雜性與不確定性都對地質(zhì)大數(shù)據(jù)可視化的困難,影響支撐有效決策。需要研究多粒度地質(zhì)對象數(shù)據(jù)復(fù)雜性和不確定性特征描述模型,從根本上對數(shù)據(jù)的處理方式能夠提出新的模型方法,并能夠把握模型的表達(dá)能力與復(fù)雜程度之間的平衡,突破地質(zhì)大數(shù)據(jù)的復(fù)雜性和不確定性描述及建模等問題。
通過近年來地質(zhì)大數(shù)據(jù)研究實(shí)踐得出,地質(zhì)工作是一個(gè)大數(shù)據(jù)的完整生態(tài)過程,其形成的數(shù)據(jù)具有多元(源)、多模態(tài)、異構(gòu)、高度時(shí)空性、大容量高相關(guān)、低價(jià)值密度、復(fù)雜性與不確定性等特點(diǎn),既具有大數(shù)據(jù)的共有特性,又有其自身特點(diǎn),是大數(shù)據(jù)的重要組成部分。其研究與應(yīng)用在大數(shù)據(jù)領(lǐng)域極具代表性,大數(shù)據(jù)的理論技術(shù)與思維給各行各業(yè)帶來新的驅(qū)動(dòng)力,大數(shù)據(jù)革命將對地質(zhì)工作帶來創(chuàng)新發(fā)展,地質(zhì)大數(shù)據(jù)的應(yīng)用前景廣闊,但是仍面臨不少的問題,需要進(jìn)一步的研究探索。
[1] Tom Kalil.Big Data is a Big Deal[R].2012.
[2] 譚永杰.地質(zhì)大數(shù)據(jù)與信息服務(wù)工程技術(shù)框架[J].地理信息世界,2016,23(1):1-9.
[3] 譚永杰.地質(zhì)大數(shù)據(jù)體系建設(shè)的總體框架研究[J].中國地質(zhì)調(diào)查,2016,3(3):1-6.
[4] Agrawal D,Bernstein P,Bertino E,et al.Challenges and opportunities with big data-a community white paper developed by leading researchers across the United States[M].Computing Research Association,2012.
[5] Fisher D,De Line R,Czerwinski M,et al.Interactions with big data analytics[J].Interactions,2012,19:50-59.
[6] 李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,45(1):1-44.
[7] 李超嶺,李健強(qiáng),張宏春,等.智能地質(zhì)調(diào)查大數(shù)據(jù)應(yīng)用體系架構(gòu)與關(guān)鍵技術(shù)[J].地質(zhì)通報(bào),2015,34(7):1288-1299.
[8] Tatbul N.Streaming data integration:Challenges and opportunities[C].Proceedings of the 26th International Conference on Data Engineering Workshops,California,2010:155-158.
[9] Manyika J,Chui M,Brown B,et al.Big data:the next frontier for innovation,competition,and productivity[M].Mc Kinsey Global Institute,2011.
[10] Zikopoulos P,Eaton C.Understanding big data:analytics for enterprise class hadoop and streaming data[M].New York:Mc Graw-Hill Osborne Media,2011.
[11] Meijer E.The world according to LINQ[J].Commun ACM,2011,54:45-51.
[12] Cooper M,Mell P.Tackling Big Data[R].NIST,2012.
[13] Tony Hey,Stewart Tansley,Kristin Tolle(Editors).The Fourth Paradigm:Data-Intensive Scientific Discovery[R].Microsoft,2009.
[14] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(6):647-657.
[15] Ghemawat S,Gobioff H,Leung S T.The Google file system.In:Proceedings of the nineteenth ACM symposium on Operating systems principles[M].New York,NY,USA,2003:29-43.
[16] Chang F,Dean J,Ghemawat S,et al.Bigtable:A distributed storage system for structured data[J].ACM Trans Comput Syst,2008,26:1-4.
[17] Labrinidis A,Jagadish H V.Challenges and opportunities with big data[J].Proc VLDB Endowment,2012,5:2032-2033.
[18] Anderson T W.An Introduction to Multivariate Statistical Analysis.3rd ed[M].New York:John Wiley & Sons,2003.
[19] Wu X,Kumar V,Ross-Quinlan J,et al.Top 10 algorithms in data mining[J].Knowl Inf Syst,2007,14:1-37.
[20] Dean J,Ghemawat S.Map Reduce:simplified data processing on large clusters[J].Commun ACM,2008,51:107-113.
[21] Malewicz G,Austern M H,Bik A J,et al.Pregel:a system for large-scale graph processing[C].Proceedings of the ACM SIGMOD International Conference on Management of Data,Indianapolis,2010:35-146.
[22] Laurila J K,Gatica-Perez D,Aad I,et al.The mobile data challenge:big data for mobile computing research.In:Proceedings of the Workshop on the Nokia Mobile Data Challenge[C]//The 10th International Conference on Pervasive Computing,Newcastle,2012.
[23] 鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].信息安全與通信保密,2013(7):9-10.
Researchonthebigdatacharacteristicsofgeologicaldata
TAN Yongjie1,2,WEN Min1,2,ZHU Yueqin1,2,QU Honggang1,2
(1.Development and Research Center,China Geological Survey,Beijing100037,China;2.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing100037,China)
The development and application of big data are hotspots in current academic area.This paper analysis the life circle and the characteristics of the geological data in the aspects of its collection,gathering,storage,analysis,which draw conclusions that,the geological works is a typical ecological process of big data.The geological data has the characteristics include:multiple(source),multimodal,heterogeneous,highly spatio-temporal,high volume and correlation,low value density,complexity and uncertainly.Geological data not only have the common features of the big data,but also has its own special attributes,it is the important component of the big data.The key technical issues during the development and application are summarized in this paper.
big data;geological big data;data characteristics;key technical issues
2017-05-28責(zé)任編輯:趙奎濤
國土資源部公益性行業(yè)科研專項(xiàng)項(xiàng)目資助(編號(hào):201511079)
譚永杰,男,教授級(jí)高級(jí)工程師,博士,主要從事地質(zhì)礦產(chǎn)勘查與地質(zhì)信息化研究工作,E-mail:tan-yj@263.net。
文敏(1986-),男,高級(jí)工程師,從事地質(zhì)調(diào)查信息化方面工作,E-mail:wenm@mail.cgs.gov.cn。
TP18
:A
:1004-4051(2017)09-0067-05