譚永杰,劉榮梅,朱月琴,文敏
1. 自然資源部地質(zhì)信息工程技術(shù)創(chuàng)新中心,北京 100055;
2. 中國(guó)地質(zhì)科學(xué)院地質(zhì)力學(xué)研究所,北京 100081;
3. 中國(guó)地質(zhì)調(diào)查局自然資源綜合調(diào)查指揮中心,北京 100055;
4. 國(guó)家自然災(zāi)害防治研究院,北京 100085
21 世紀(jì)以來(lái),以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能為代表的新一代信息技術(shù)快速發(fā)展成為當(dāng)代科技革命的主要引擎,改變和顛覆了我們傳統(tǒng)的思維模式、生活模式、生產(chǎn)模式等,人類社會(huì)進(jìn)入了信息化的時(shí)代(維克托·邁爾-舍恩伯格和肯尼思·庫(kù)克耶,2013;《大數(shù)據(jù)領(lǐng)導(dǎo)干部讀本》編寫組,2015)。支撐信息化的核心是大數(shù)據(jù),大數(shù)據(jù)是信息化發(fā)展的新階段,以數(shù)據(jù)容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征(鄔賀銓,2013)。大數(shù)據(jù)發(fā)展已成為國(guó)家戰(zhàn)略,國(guó)務(wù)院2015 年印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(國(guó)發(fā)〔2015〕50 號(hào)),系統(tǒng)提出了我國(guó)大數(shù)據(jù)發(fā)展的方針策略、主要任務(wù)和措施。近年來(lái),大數(shù)據(jù)在我國(guó)得到了迅猛發(fā)展,大數(shù)據(jù)技術(shù)日趨成熟、體系越發(fā)完善,大數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展,顯現(xiàn)出了來(lái)源廣泛、樣式繁多、應(yīng)用普遍的社會(huì)屬性。地質(zhì)工作是經(jīng)濟(jì)社會(huì)發(fā)展重要的先行性、基礎(chǔ)性工作,服務(wù)于經(jīng)濟(jì)社會(huì)的各個(gè)方面(溫家寶,2003),地質(zhì)數(shù)據(jù)是地質(zhì)工作的真實(shí)記錄和成果的最終表達(dá)載體,地質(zhì)工作的對(duì)象是地球,地質(zhì)數(shù)據(jù)描述的是地球物質(zhì)資源和人類生活所處地質(zhì)環(huán)境的相關(guān)信息,是自然資源數(shù)據(jù)的重要組成部分。伴隨著信息技術(shù)飛速發(fā)展、社會(huì)經(jīng)濟(jì)發(fā)展對(duì)地質(zhì)數(shù)據(jù)的需要,地質(zhì)信息化近年來(lái)得到了大發(fā)展,但是對(duì)地質(zhì)大數(shù)據(jù)的認(rèn)識(shí)還不夠系統(tǒng)和深刻,這制約和影響著地質(zhì)信息化的發(fā)展。本文依據(jù)大數(shù)據(jù)的理念及其發(fā)展變化,結(jié)合地質(zhì)工作實(shí)際和地質(zhì)信息化建設(shè)的實(shí)踐體會(huì)(譚永杰,2016a,2016b;譚永杰等,2007,2011,2017,2018,2019,2023;譚永杰和文敏,2023),系統(tǒng)分析地質(zhì)數(shù)據(jù)的大數(shù)據(jù)特性—— 從地質(zhì)數(shù)據(jù)的來(lái)源梳理其構(gòu)成和天然屬性,從地質(zhì)數(shù)據(jù)客觀存在和應(yīng)用角度歸納分析其所具備大數(shù)據(jù)的特點(diǎn),給出地質(zhì)大數(shù)據(jù)概念的內(nèi)涵,并結(jié)合近年來(lái)地質(zhì)信息化建設(shè)實(shí)踐,分析地質(zhì)大數(shù)據(jù)研究存在的問(wèn)題,進(jìn)而提出地質(zhì)大數(shù)據(jù)研究與應(yīng)用的發(fā)展方向。
地質(zhì)科學(xué)的根本任務(wù)在于認(rèn)識(shí)地球,并利用這種認(rèn)識(shí)去保證人類生存發(fā)展所需要的自然資源,保護(hù)和改善人類的居住環(huán)境(江澤民,2003)。地質(zhì)工作的對(duì)象是地球,尤其是巖石圈的表層地殼。地質(zhì)工作者通過(guò)野外調(diào)查、觀測(cè)監(jiān)測(cè)、工程揭露、地球物理勘探、地球化學(xué)勘探、遙感地質(zhì)調(diào)查、分析測(cè)試等工作手段和綜合研究,揭示地球尤其是地殼表層的物質(zhì)組成、結(jié)構(gòu)及其演化,獲取人類社會(huì)發(fā)展所需要的化石能源和礦物資源的賦存信息,獲取人類生活相關(guān)的地球空間環(huán)境信息,為社會(huì)經(jīng)濟(jì)的高質(zhì)量發(fā)展提供基礎(chǔ)支撐(李守義和葉松青,2003;舒良樹(shù),2010)。
從數(shù)據(jù)角度,地質(zhì)工作是一個(gè)數(shù)據(jù)采集、處理、歸納綜合和提交的過(guò)程;地質(zhì)工作原始采集的是數(shù)據(jù),處理的是數(shù)據(jù),最終的成果也以數(shù)據(jù)形式表達(dá),因此,地質(zhì)工作是一個(gè)完整的數(shù)據(jù)生成、處理和提交應(yīng)用的過(guò)程。
1)野外調(diào)查采集的數(shù)據(jù)
野外調(diào)查是地質(zhì)人員到野外現(xiàn)場(chǎng)實(shí)地觀察地質(zhì)現(xiàn)象,形成直接的感性認(rèn)識(shí),包括點(diǎn)觀察、路線觀察、剖面測(cè)制、獲取樣品,形成各種觀察記錄、素描圖,編制剖面圖、平面圖等(地質(zhì)部地質(zhì)辭典辦公室,1982;劉志遜等,2015)。這是地質(zhì)工作最基本的數(shù)據(jù)采集方式,也是日常所說(shuō)的最重要的第一手地質(zhì)資料。傳統(tǒng)地質(zhì)工作“三大件”(地質(zhì)錘、羅盤、放大鏡)是輔助地質(zhì)人員在野外進(jìn)行觀察的,其結(jié)果一般記錄在野外記錄本上,多是描述性的文本。近年來(lái),借助信息技術(shù)發(fā)展逐步形成了野外數(shù)據(jù)采集儀、數(shù)字地質(zhì)調(diào)查系統(tǒng)、智能地質(zhì)調(diào)查系統(tǒng)等,基本上實(shí)現(xiàn)了野外數(shù)據(jù)采集的數(shù)字化、結(jié)構(gòu)化,現(xiàn)在正在走向智能化、智慧化(譚永杰等,2007,2011;李超嶺,2012;施俊法,2022)。
2)觀測(cè)監(jiān)測(cè)獲取的數(shù)據(jù)
觀測(cè)監(jiān)測(cè)是利用專門設(shè)備儀器或人工方式對(duì)特定位置的地質(zhì)現(xiàn)象和屬性定期進(jìn)行觀測(cè)監(jiān)測(cè),獲取實(shí)時(shí)數(shù)據(jù),據(jù)此分析特定地域地質(zhì)體或地質(zhì)現(xiàn)象的特征。主要包括用各種傳感器探測(cè)地下水的水位、流速、溫度,地質(zhì)災(zāi)害相關(guān)的地應(yīng)力、位移、地面沉降量及速率等,采用視頻記錄地質(zhì)作用的過(guò)程等。近年來(lái)觀測(cè)監(jiān)測(cè)多采用電子傳感儀器,用物聯(lián)網(wǎng)控制采集,通過(guò)互聯(lián)網(wǎng)傳輸,所獲得的基本上為實(shí)時(shí)數(shù)據(jù)。
3)工程揭露采集的數(shù)據(jù)
工程揭露是利用鉆機(jī)、人工挖掘等方式,包括鉆探、坑探、槽探、洞探等,對(duì)地球及表層受覆蓋的區(qū)域進(jìn)行一定程度的揭露,便于地質(zhì)人員獲取覆蓋物下的地質(zhì)信息和其他探測(cè)手段的實(shí)施,通常形成鉆進(jìn)記錄、巖心記錄、剖面記錄,編制相應(yīng)的鉆孔柱狀圖、槽探坑探壁剖面圖等(地質(zhì)部地質(zhì)辭典辦公室,1982;劉志遜等,2015)。近年來(lái)的技術(shù)發(fā)展,實(shí)現(xiàn)了各種柱狀圖、剖面圖數(shù)據(jù)結(jié)構(gòu)化采集和繪制;各種鉆進(jìn)施工參數(shù),包括轉(zhuǎn)速、溫度、泥漿密度、孔斜等,也可通過(guò)傳感器、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等,自動(dòng)感知、傳輸和結(jié)構(gòu)化記錄。
4)地球物理勘探采集的數(shù)據(jù)
地球物理勘探是利用地球及表層組成物質(zhì)的物性差異,針對(duì)性地采用物理方法進(jìn)行探測(cè),主要有電法、磁法、地震勘探、重力勘探、放射性勘探、地球物理測(cè)井等(地質(zhì)部地質(zhì)辭典辦公室,1981,1982;劉志遜等,2015)。地球物理探測(cè)可在太空(衛(wèi)星)、空中(航空)、地面、地下和井中(測(cè)井)等不同空間平臺(tái)實(shí)施。地球物理探測(cè)形成相應(yīng)的施工參數(shù)記錄、探測(cè)結(jié)果記錄等,數(shù)據(jù)經(jīng)處理分析形成地質(zhì)解釋成果。在地質(zhì)勘查技術(shù)中,地球物理技術(shù)發(fā)展最快,探測(cè)效率較高,現(xiàn)已全部實(shí)現(xiàn)了由模擬模式向數(shù)字模式的換代,但是由于方法多樣、平臺(tái)層次多、生產(chǎn)廠家多,儀器數(shù)字記錄格式差別較大。
5)地球化學(xué)勘探采集的數(shù)據(jù)
地球化學(xué)勘探是利用地球及表層物質(zhì)的化學(xué)性質(zhì)差異,采用地球化學(xué)采樣、分析樣品中化學(xué)元素含量的方式,形成相應(yīng)的采樣施工記錄、測(cè)試結(jié)果記錄和地質(zhì)分析成果(地質(zhì)部地質(zhì)辭典辦公室,1981)。隨著技術(shù)的進(jìn)步,常規(guī)的地球化學(xué)勘探可分析探測(cè)的元素由40 多種增加到了70 多種,根據(jù)需要還可以更多,探測(cè)精度在不斷提升,現(xiàn)在也可以探測(cè)微量元素的含量。
6)遙感地質(zhì)調(diào)查采集的數(shù)據(jù)
遙感地質(zhì)調(diào)查是利用地球及表層物質(zhì)光譜性質(zhì)的差異,制作不同種類的傳感器,在不和觀察物直接接觸的情況下,獲取地球表層覆蓋物的光譜反射信息,分析地球和表層物質(zhì)組成及結(jié)構(gòu)(地質(zhì)部地質(zhì)辭典辦公室,1982;劉志遜等,2015)。目前主要有多光譜遙感、紅外遙感、高光譜遙感、合成孔徑雷達(dá)及側(cè)視雷達(dá)等,按照空間平臺(tái)可分為衛(wèi)星遙感、航空遙感、地面遙感等,形成遙感飛行參數(shù)、遙感圖像數(shù)據(jù)和分析處理結(jié)果等記錄和地質(zhì)解譯成果。隨著技術(shù)發(fā)展,遙感技術(shù)的空間分辨率、光譜分辨率不斷提高,傳感器光譜記錄全部實(shí)現(xiàn)了由模擬模式向數(shù)字模式的轉(zhuǎn)型。
7)分析測(cè)試獲取的數(shù)據(jù)
分析測(cè)試是對(duì)野外觀察或鉆探、槽探中采取的地物樣品進(jìn)行物理和化學(xué)分析,獲取地球表層物質(zhì)的物理性質(zhì)、化學(xué)性質(zhì),分析地球和表層物質(zhì)組成及結(jié)構(gòu)(劉志遜等,2015),形成樣品記錄、物理與化學(xué)分析測(cè)試結(jié)果和處理分析記錄。近年來(lái),分析測(cè)試儀器有比較大的發(fā)展,獲取的物性、化學(xué)性質(zhì)和靈敏度等都提高較快,數(shù)據(jù)的解釋水平有大幅度提高,尤其是同位素測(cè)年技術(shù)也日趨成熟。
8)綜合分析獲得的數(shù)據(jù)
綜合分析是對(duì)各種地質(zhì)工作手段采集到的原始數(shù)據(jù)和地質(zhì)分析專題成果進(jìn)行綜合研究,形成地質(zhì)勘查成果和結(jié)論(劉志遜等,2015)。綜合分析一般形成成果報(bào)告、表格、圖件和專題報(bào)告。成果報(bào)告多為非結(jié)構(gòu)化的文檔文件,附表、附圖多為結(jié)構(gòu)化的數(shù)據(jù)文件,圖件現(xiàn)多數(shù)已經(jīng)實(shí)現(xiàn)了矢量化數(shù)據(jù)表達(dá)。
9)地質(zhì)資料數(shù)字化的數(shù)據(jù)
我國(guó)以往地質(zhì)工作形成的業(yè)務(wù)成果記錄(統(tǒng)稱為地質(zhì)資料),基本上都是紙質(zhì)的模擬記錄,2000年以后,才基本上形成數(shù)字化記錄,因此,大多數(shù)地質(zhì)單位都組織對(duì)已有地質(zhì)資料進(jìn)行數(shù)字化(譚永杰等,2011)。地質(zhì)資料數(shù)字化分兩種方式:一種是對(duì)已有資料進(jìn)行掃描,形成和紙質(zhì)資料完全一樣的數(shù)字版資料,這種記錄多是格柵化的圖像文件;另一種是對(duì)掃描的圖像數(shù)據(jù)進(jìn)行識(shí)別和編輯,形成文檔文件、表格文件、矢量化圖件,也有采用人工方式對(duì)已有資料進(jìn)行規(guī)范化錄入形成結(jié)構(gòu)化的數(shù)據(jù)庫(kù)。
大數(shù)據(jù)具有數(shù)據(jù)量大、類型多、變化速度快、應(yīng)用價(jià)值高等典型特征。對(duì)匯聚形成的地質(zhì)數(shù)據(jù)進(jìn)行系統(tǒng)梳理,從數(shù)據(jù)存在的客觀性和應(yīng)用角度進(jìn)行歸納分析,發(fā)現(xiàn)地質(zhì)數(shù)據(jù)具有廣泛應(yīng)用性,不僅具有量大、類型多、匯聚快、價(jià)值高等大數(shù)據(jù)公認(rèn)的特征,還具有地質(zhì)行業(yè)顯著的特色(表1)。
表1 地質(zhì)數(shù)據(jù)的大數(shù)據(jù)特點(diǎn)歸納表Tab.1 Big data characteristics of geological data
1)地質(zhì)數(shù)據(jù)具有極高的廣泛應(yīng)用價(jià)值
地質(zhì)數(shù)據(jù)是地質(zhì)勘查單位和地質(zhì)工作者寶貴的財(cái)富,具有廣泛的應(yīng)用價(jià)值。地質(zhì)工作是經(jīng)濟(jì)社會(huì)發(fā)展重要的先行性、基礎(chǔ)性工作,地質(zhì)工作既是經(jīng)濟(jì)建設(shè)的先行,又貫穿于長(zhǎng)期建設(shè)的全過(guò)程,滲透在經(jīng)濟(jì)、社會(huì)發(fā)展的方方面面(溫家寶,2003)。地質(zhì)工作成果數(shù)據(jù)廣泛服務(wù)于保障國(guó)家能源資源安全、促進(jìn)生態(tài)文明建設(shè)、防災(zāi)減災(zāi),服務(wù)于海洋強(qiáng)國(guó)、新型城鎮(zhèn)化、工業(yè)化、農(nóng)業(yè)現(xiàn)代化和重大工程建設(shè),服務(wù)于軍事和國(guó)防建設(shè)。地質(zhì)數(shù)據(jù)有極高的廣泛應(yīng)用價(jià)值。
2)地質(zhì)數(shù)據(jù)具有特殊的再利用價(jià)值
地球演化有40 多億年的歷史,地球表層的物質(zhì)組成和結(jié)構(gòu)演化相對(duì)于人類生活來(lái)說(shuō)是非常緩慢的。除突發(fā)性的構(gòu)造活動(dòng)、火山噴發(fā)和地質(zhì)災(zāi)害外,多數(shù)地質(zhì)現(xiàn)象的演變是以萬(wàn)年、百萬(wàn)年為單位表述的,而我國(guó)有記錄的地質(zhì)工作才100 多年的歷史。因此,不同時(shí)期的地質(zhì)工作相對(duì)于其研究對(duì)象來(lái)說(shuō),其時(shí)間因素可以忽略不計(jì),都是對(duì)地質(zhì)體從不同角度的客觀認(rèn)識(shí)。地質(zhì)工作者在一個(gè)地區(qū)開(kāi)展勘查時(shí),特別注重對(duì)已有地質(zhì)資料數(shù)據(jù)的收集和研究,因而,相對(duì)于其他行業(yè)領(lǐng)域而言,地質(zhì)工作特別重視已有地質(zhì)資料數(shù)據(jù)的再利用。
地球是龐大復(fù)雜的有機(jī)整體,由于揭露手段和揭露的程度有限,人們對(duì)于覆蓋物掩埋下的地球表層的物質(zhì)組成、結(jié)構(gòu)及其演化規(guī)律的認(rèn)識(shí)極其有限,就像盲人摸象,容易得出局部的或片面的階段性結(jié)論。人類對(duì)于地球的認(rèn)識(shí)處于長(zhǎng)期探索、不斷深化的過(guò)程中,也是總體循環(huán)、螺旋式上升的認(rèn)識(shí)模式,因此,地質(zhì)工作者對(duì)于同一塊區(qū)域,依據(jù)已有的地質(zhì)工作成果資料數(shù)據(jù),可能要開(kāi)展一輪又一輪的地質(zhì)工作,不斷深化認(rèn)識(shí),取得新的成果。
在所有地質(zhì)數(shù)據(jù)中,野外或現(xiàn)場(chǎng)采集的第一手地質(zhì)數(shù)據(jù)最有再利用價(jià)值,它是對(duì)地質(zhì)現(xiàn)象的客觀描述。經(jīng)過(guò)加工處理的數(shù)據(jù),包括工作過(guò)程中衍生的數(shù)據(jù)、階段性成果和最終成果數(shù)據(jù)都帶有一定的地質(zhì)工作者個(gè)人主觀因素,在后續(xù)的實(shí)際工作中一般作為參考。
3)地質(zhì)數(shù)據(jù)具有較高的相關(guān)性
對(duì)于一個(gè)工作區(qū)域,地質(zhì)工作會(huì)根據(jù)目標(biāo)任務(wù)和工作區(qū)實(shí)際地質(zhì)情況,采用不同組合的工作手段進(jìn)行勘查。地質(zhì)工作的對(duì)象(地質(zhì)體)本質(zhì)是客觀存在的,不同工作方法獲得的探測(cè)數(shù)據(jù)是從不同角度對(duì)該地質(zhì)體某一方面特性的客觀認(rèn)識(shí)。因此,同一工作區(qū)各種工作手段獲取的數(shù)據(jù)具有必然的聯(lián)系和客觀的相關(guān)性。
4)地質(zhì)數(shù)據(jù)具有較大的局限性、多解性和模糊性
地球地域?qū)拸V,地質(zhì)工作者能夠跑到的野外觀察點(diǎn)、能夠?qū)嵤┑目辈楣こ毯筒蓸臃浅S邢?,因此,根?jù)觀察數(shù)據(jù)、樣品數(shù)據(jù)或鉆孔數(shù)據(jù)獲得的地質(zhì)認(rèn)識(shí)具有相當(dāng)大的片面性、局限性,也常常會(huì)形成“一孔之見(jiàn)”。地球物理探測(cè)、遙感等方法,都是根據(jù)物性、光性對(duì)勘查對(duì)象進(jìn)行反演推測(cè)的,一般也要經(jīng)過(guò)實(shí)際標(biāo)定和驗(yàn)證,這種驗(yàn)證都是十分有限的,因此,根據(jù)地球物理數(shù)據(jù)、遙感數(shù)據(jù)獲得的地質(zhì)認(rèn)識(shí)有多解性。地球是一個(gè)有機(jī)整體,地質(zhì)工作強(qiáng)調(diào)用地球系統(tǒng)科學(xué)觀分析研究地質(zhì)對(duì)象,由于野外采集數(shù)據(jù)的局限性和其他間接手段獲得數(shù)據(jù)解釋的多解性,地質(zhì)工作綜合研究獲得的最終結(jié)果,也就是成果數(shù)據(jù)的含義,在一定程度上有比較明顯的模糊性。因此,在地質(zhì)成果中常見(jiàn)“推測(cè)”“可能”“估算”等模糊性表述。
5)地質(zhì)數(shù)據(jù)具有多模態(tài)、異構(gòu)復(fù)雜性
正如上述,地質(zhì)工作手段包括了野外調(diào)查、觀測(cè)監(jiān)測(cè)、揭露工程、地球物理勘探、地球化學(xué)勘探、遙感地質(zhì)調(diào)查、分析測(cè)試等,工作平臺(tái)包括太空、空中、地面和地下等,在每一種手段中又有多種方法和儀器,每一種儀器有不同的生產(chǎn)廠家,尤其是地球物理探測(cè)手段多種方法技術(shù)、多儀器廠商,具體實(shí)施數(shù)據(jù)采集的單位和人員有不同的習(xí)慣。因此,采集的地質(zhì)數(shù)據(jù)具有多模態(tài)、多格式;采集的地質(zhì)數(shù)據(jù)有結(jié)構(gòu)化的記錄,也有大量的描述性記錄、地質(zhì)現(xiàn)象的照片記錄及視頻記錄等。地質(zhì)數(shù)據(jù)具有非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化等異構(gòu)的特點(diǎn),各種結(jié)構(gòu)復(fù)雜。
6)地質(zhì)數(shù)據(jù)具有高度時(shí)空性
地質(zhì)數(shù)據(jù)描述的對(duì)象是地質(zhì)體,地質(zhì)體具有一定的空間位置。因此,任何地質(zhì)數(shù)據(jù)不管是描述地質(zhì)形態(tài)的,還是描述地質(zhì)屬性的,都是指一定空間位置的形態(tài)或?qū)傩?,地質(zhì)數(shù)據(jù)帶有具體的空間坐標(biāo),地質(zhì)工作者特別重視地質(zhì)現(xiàn)象的具體位置,缺失具體位置的地質(zhì)現(xiàn)象的觀測(cè)記錄和數(shù)據(jù)沒(méi)有科學(xué)意義;任何地質(zhì)數(shù)據(jù)都具有采集時(shí)間,描述的地質(zhì)體也具有地質(zhì)演化的特點(diǎn),具有地質(zhì)年代屬性。地理信息數(shù)據(jù)具有高時(shí)空性(王家耀等,2017),地質(zhì)數(shù)據(jù)和其他地學(xué)數(shù)據(jù)一樣,具有高度時(shí)空性。
7)地質(zhì)數(shù)據(jù)具有量大、匯聚快的特點(diǎn)
我國(guó)地質(zhì)勘查工作有100 多年的歷史,產(chǎn)生了海量地質(zhì)數(shù)據(jù)。近年來(lái),每年投入1000 多億元進(jìn)行地質(zhì)工作,其中,中央財(cái)政投入的地質(zhì)調(diào)查工作基本上維持在100 億元左右,這些地質(zhì)工作產(chǎn)生的地質(zhì)資料數(shù)據(jù)通過(guò)項(xiàng)目關(guān)系匯聚到中央管理部門;同時(shí),我國(guó)從20 世紀(jì)50 年代開(kāi)始,實(shí)行地質(zhì)資料匯交管理制度,在我國(guó)境內(nèi)實(shí)施的地質(zhì)工作必須向省級(jí)地質(zhì)資料館藏機(jī)構(gòu)或全國(guó)地質(zhì)資料館匯交地質(zhì)資料(全國(guó)地質(zhì)資料館,2012)。通過(guò)這兩條渠道形成了比較系統(tǒng)、全面的地質(zhì)數(shù)據(jù)集合,這些數(shù)據(jù)具有量大、面廣的特點(diǎn)。近年來(lái),隨著新技術(shù)的發(fā)展,地震地質(zhì)勘探、遙感地質(zhì)調(diào)查、地質(zhì)災(zāi)害監(jiān)測(cè)等手段的廣泛實(shí)施,尤其是探測(cè)精度和分辨率的快速提高,地質(zhì)數(shù)據(jù)呈現(xiàn)出快速爆發(fā)式增長(zhǎng)的局面。
匯聚集合的地質(zhì)數(shù)據(jù)既有大數(shù)據(jù)的典型特征,量大、類型多、價(jià)值高、匯聚快,又具有行業(yè)顯著的特點(diǎn);地質(zhì)工作的對(duì)象是自然資源的重要組成部分,地質(zhì)大數(shù)據(jù)屬于自然資源大數(shù)據(jù)的一部分,也是國(guó)家大數(shù)據(jù)的重要組成。
在近年的工作中,地質(zhì)大數(shù)據(jù)遇到的主要問(wèn)題仍然是開(kāi)放共享難、應(yīng)用效果不顯著、難以形成規(guī)?;瘧?yīng)用等,問(wèn)題由多方面原因造成。一是缺少通用的數(shù)據(jù)描述模型,造成數(shù)據(jù)多源異構(gòu)、格式多樣,數(shù)據(jù)組織管理困難,難以形成高效的存儲(chǔ)管理和檢索查詢;二是地質(zhì)數(shù)據(jù)的匯聚工作機(jī)制還不夠完善,數(shù)據(jù)生產(chǎn)者共享的積極性不高;三是數(shù)據(jù)挖掘分析難度大,不能有效提取有用信息和知識(shí);四是數(shù)據(jù)匯聚效率比較低,沒(méi)有形成有效系統(tǒng);五是地質(zhì)大數(shù)據(jù)社會(huì)認(rèn)知層次較低,關(guān)注度不高。針對(duì)上述問(wèn)題,建議加強(qiáng)以下工作,推進(jìn)地質(zhì)大數(shù)據(jù)高質(zhì)量發(fā)展。
(1)加強(qiáng)地質(zhì)數(shù)據(jù)模型研制,規(guī)范地質(zhì)數(shù)據(jù)采集。
采集數(shù)據(jù)的不規(guī)范已經(jīng)成為制約地質(zhì)數(shù)據(jù)快速采集、處理和應(yīng)用的主要問(wèn)題,應(yīng)盡快在國(guó)家地質(zhì)工作中推動(dòng)研發(fā)出認(rèn)可度比較高的地質(zhì)數(shù)據(jù)描述模型,包括通用數(shù)據(jù)模型、各專業(yè)數(shù)據(jù)模型,在此基礎(chǔ)上制定地質(zhì)數(shù)據(jù)描述標(biāo)準(zhǔn)和采集規(guī)范,并以行業(yè)指導(dǎo)型標(biāo)準(zhǔn)形式發(fā)布,規(guī)范各儀器廠家地質(zhì)勘查設(shè)備、軟件系統(tǒng)的數(shù)據(jù)表達(dá)格式,規(guī)范和引導(dǎo)全社會(huì)地質(zhì)勘查單位數(shù)據(jù)的規(guī)范采集與綜合研究成果的表達(dá)。
(2)加強(qiáng)地質(zhì)大數(shù)據(jù)存儲(chǔ)管理技術(shù)研究,提升數(shù)據(jù)管理與共享水平。
重新審定完善地質(zhì)元數(shù)據(jù)標(biāo)準(zhǔn),開(kāi)發(fā)有效實(shí)用的地質(zhì)元數(shù)據(jù)采集工具;規(guī)范地質(zhì)大數(shù)據(jù)的元數(shù)據(jù)制作,必要時(shí)對(duì)已經(jīng)采集的元數(shù)據(jù)進(jìn)行修改完善和再采集。研究多種類型地質(zhì)數(shù)據(jù)的存儲(chǔ)管理模式,對(duì)文本數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、掃描數(shù)據(jù)、地震勘探數(shù)據(jù)及遙感地質(zhì)調(diào)查數(shù)據(jù)等,根據(jù)數(shù)據(jù)格式特點(diǎn)和數(shù)據(jù)量等,研究形成混合架構(gòu)的數(shù)據(jù)庫(kù),以及在線、離線等不同策略的數(shù)據(jù)存儲(chǔ)管理模式,對(duì)地質(zhì)大數(shù)據(jù)實(shí)現(xiàn)有效管理。在數(shù)據(jù)有效組織管理基礎(chǔ)上,結(jié)合地質(zhì)數(shù)據(jù)用戶的應(yīng)用習(xí)慣和地質(zhì)數(shù)據(jù)的特點(diǎn),設(shè)計(jì)具有特色的地質(zhì)數(shù)據(jù)檢索查詢模型,提高地質(zhì)數(shù)據(jù)檢索查詢的質(zhì)量和效率;總結(jié)地質(zhì)大數(shù)據(jù)組織管理模式,分析研究地質(zhì)數(shù)據(jù)存儲(chǔ)管理效率,分析評(píng)估建設(shè)結(jié)構(gòu)化數(shù)據(jù)庫(kù)或直接進(jìn)行數(shù)據(jù)文件堆倉(cāng)管理的技術(shù)途徑。
(3)加強(qiáng)地質(zhì)大數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)化研究,提高地質(zhì)大數(shù)據(jù)的處理效率。
已有的紙質(zhì)地質(zhì)資料大多數(shù)已經(jīng)數(shù)字化,但是多為非結(jié)構(gòu)化的語(yǔ)言描述或圖件掃描,再處理利用的效率低??蓪?duì)已經(jīng)掃描的地質(zhì)報(bào)告進(jìn)行文字識(shí)別,轉(zhuǎn)化成文本文件,包括表格文件;對(duì)文檔文件,采用自然語(yǔ)言智能識(shí)別的方式,根據(jù)地質(zhì)數(shù)據(jù)描述模型等,對(duì)文本文件進(jìn)行識(shí)別和信息提取,形成結(jié)構(gòu)化的表達(dá)數(shù)據(jù);對(duì)掃描的圖件數(shù)據(jù)進(jìn)行地質(zhì)點(diǎn)、線、面和屬性的識(shí)別,形成矢量化的圖形文件,這方面的研究成果趨于成熟,可進(jìn)行批量轉(zhuǎn)化處理。
(4)加強(qiáng)地質(zhì)大數(shù)據(jù)產(chǎn)品分級(jí)管理研究,規(guī)范地質(zhì)數(shù)據(jù)的共享服務(wù)。
探索對(duì)地質(zhì)大數(shù)據(jù)產(chǎn)品根據(jù)工作程度進(jìn)行分級(jí):0 級(jí)產(chǎn)品為原始采集的數(shù)據(jù);Ⅰ級(jí)產(chǎn)品為經(jīng)過(guò)坐標(biāo)投影統(tǒng)一、數(shù)據(jù)按照規(guī)范進(jìn)行整理等基本處理的數(shù)據(jù),Ⅱ級(jí)產(chǎn)品為經(jīng)過(guò)坐標(biāo)投影矯正和初步處理的數(shù)據(jù);Ⅲ級(jí)產(chǎn)品為經(jīng)過(guò)專門處理的專題成果數(shù)據(jù)等。研究制定地質(zhì)大數(shù)據(jù)產(chǎn)品分級(jí)標(biāo)準(zhǔn),對(duì)已有的地質(zhì)數(shù)據(jù)進(jìn)行清理和規(guī)范化整理,形成標(biāo)準(zhǔn)化的分級(jí)數(shù)據(jù)產(chǎn)品。加快制定地質(zhì)大數(shù)據(jù)產(chǎn)品體系和制作標(biāo)準(zhǔn),積極引導(dǎo)、支持社會(huì)有關(guān)機(jī)構(gòu)和公眾參與地質(zhì)大數(shù)據(jù)服務(wù)產(chǎn)品的制作,形成多元化的地質(zhì)數(shù)據(jù)服務(wù)產(chǎn)品制作新局面。
(5)加強(qiáng)地質(zhì)大數(shù)據(jù)融合分析研究,提升地質(zhì)大數(shù)據(jù)的分析挖掘水平。
按照大數(shù)據(jù)的理念和一般方法,探索推進(jìn)地質(zhì)數(shù)據(jù)的融合分析,讓數(shù)據(jù)進(jìn)行碰撞,形成數(shù)據(jù)“火花”或新的亮點(diǎn)。數(shù)據(jù)碰撞的前提是統(tǒng)一數(shù)據(jù)的坐標(biāo)和時(shí)間基準(zhǔn),統(tǒng)一數(shù)據(jù)的描述粒度或可對(duì)應(yīng)性(譚永杰和van Genderen,1998),要加大對(duì)地質(zhì)大數(shù)據(jù)這方面的研究和數(shù)據(jù)整理工作;加強(qiáng)對(duì)成礦模型、找礦模型(施俊法等,2010;毛景文等,2012a,2012b)和地質(zhì)演化模型的分析歸納,形成相應(yīng)的業(yè)務(wù)模型、數(shù)據(jù)模型及算法,并采用機(jī)器學(xué)習(xí)的原理和方法,推進(jìn)地質(zhì)大數(shù)據(jù)的深度挖掘和分析應(yīng)用。
(6)完善地質(zhì)大數(shù)據(jù)體系建設(shè),提升地質(zhì)大數(shù)據(jù)的整體合力。
在已有的地質(zhì)大數(shù)據(jù)體系(圖1)建設(shè)基礎(chǔ)上(譚永杰,2016b),從系統(tǒng)的角度繼續(xù)完善地質(zhì)大數(shù)據(jù)體系建設(shè)。
圖1 地質(zhì)大數(shù)據(jù)體系總體框架Fig.1 General framework of big geological data system
完善地質(zhì)數(shù)據(jù)采集處理體系,使用標(biāo)準(zhǔn)的數(shù)據(jù)模型,升級(jí)各專業(yè)數(shù)據(jù)采集系統(tǒng),推進(jìn)地質(zhì)數(shù)據(jù)快速規(guī)范采集和快速處理工作。完善地質(zhì)數(shù)據(jù)匯聚體系,優(yōu)化地質(zhì)項(xiàng)目匯聚和地質(zhì)資料匯交工作機(jī)制,實(shí)現(xiàn)地質(zhì)數(shù)據(jù)快速有效匯聚,強(qiáng)力推進(jìn)地質(zhì)項(xiàng)目的在線記錄和實(shí)時(shí)匯聚。完善地質(zhì)數(shù)據(jù)與信息服務(wù)產(chǎn)品體系,以需求為引導(dǎo),開(kāi)發(fā)具有現(xiàn)實(shí)應(yīng)用價(jià)值的品牌產(chǎn)品,實(shí)現(xiàn)服務(wù)產(chǎn)品的分類分級(jí)標(biāo)準(zhǔn)化管理,豐富地質(zhì)數(shù)據(jù)與信息社會(huì)化服務(wù)產(chǎn)品。完善地質(zhì)數(shù)據(jù)與信息產(chǎn)品體系,提升國(guó)家館藏機(jī)構(gòu)服務(wù)節(jié)點(diǎn)能力,指導(dǎo)規(guī)范地質(zhì)單位服務(wù)管理,形成比較完善的地質(zhì)數(shù)據(jù)信息服務(wù)體系,推進(jìn)地質(zhì)數(shù)據(jù)與信息協(xié)同服務(wù)。完善地質(zhì)大數(shù)據(jù)支撐平臺(tái)(又稱“地質(zhì)云”),提高“地質(zhì)云”的數(shù)據(jù)存儲(chǔ)、處理和服務(wù)能力,推進(jìn)地質(zhì)工作現(xiàn)代化水平,提升地質(zhì)數(shù)據(jù)與信息服務(wù)的水平。同時(shí),建設(shè)完善地質(zhì)大數(shù)據(jù)制度機(jī)制體系、技術(shù)標(biāo)準(zhǔn)體系、安全防護(hù)體系,為地質(zhì)大數(shù)據(jù)體系的持續(xù)建設(shè)與穩(wěn)定運(yùn)行提供支撐。
(7)納入全球可持續(xù)發(fā)展空間地學(xué)信息框架,推進(jìn)我國(guó)地質(zhì)大數(shù)據(jù)國(guó)際化高水平發(fā)展。
聯(lián)合國(guó)統(tǒng)計(jì)司主導(dǎo)建立了聯(lián)合國(guó)全球地理空間信息管理專家委員會(huì)(the United Nation Committee of Experts on Global Geospatial Information Management,UN-GGIM),協(xié)助聯(lián)合國(guó)統(tǒng)籌協(xié)調(diào)全球空間地學(xué)信息方面的工作,以支持全球可持續(xù)發(fā)展戰(zhàn)略的實(shí)施。該委員會(huì)制定有全球可持續(xù)發(fā)展空間地學(xué)信息框架,地質(zhì)大數(shù)據(jù)是地學(xué)空間信息的重要組成部分,應(yīng)該納入該框架,促進(jìn)地質(zhì)大數(shù)據(jù)更加規(guī)范的管理、更加廣泛的應(yīng)用和更高水平的發(fā)展。2019年在紐約聯(lián)合國(guó)總部召開(kāi)的UN-GGIM 第9 次會(huì)議上,中方代表團(tuán)提出了相關(guān)建議,得到認(rèn)可并被寫入大會(huì)的最后決議中,今后應(yīng)繼續(xù)推進(jìn)此項(xiàng)工作,爭(zhēng)取早日納入全球可持續(xù)發(fā)展空間地學(xué)信息框架。
我國(guó)已經(jīng)積累的地質(zhì)數(shù)據(jù)是重要的自然資源大數(shù)據(jù)和國(guó)家大數(shù)據(jù)。地質(zhì)工作是社會(huì)和經(jīng)濟(jì)發(fā)展基礎(chǔ)性工作,地質(zhì)數(shù)據(jù)具有高度時(shí)空性和大數(shù)據(jù)的基本特性,又具有行業(yè)顯明的特點(diǎn),具有廣泛應(yīng)用性。應(yīng)加強(qiáng)地質(zhì)大數(shù)據(jù)采集處理的標(biāo)準(zhǔn)化建設(shè),研究地質(zhì)大數(shù)據(jù)的高效管理模式,推進(jìn)地質(zhì)大數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)化處理,建立地質(zhì)大數(shù)據(jù)服務(wù)產(chǎn)品分級(jí)管理制度;加強(qiáng)地質(zhì)大數(shù)據(jù)融合處理和業(yè)務(wù)分析模型建立,建設(shè)完善地質(zhì)大數(shù)據(jù)體系,提高我國(guó)地質(zhì)大數(shù)據(jù)的社會(huì)認(rèn)知層次和國(guó)際化水平,全力推進(jìn)地質(zhì)大數(shù)據(jù)的共享和信息服務(wù),提升地質(zhì)工作為社會(huì)經(jīng)濟(jì)高質(zhì)量發(fā)展服務(wù)的能力。