蔣璟鑫,李 超,胡修棉
內(nèi)生金屬礦床成礦機(jī)制研究國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京大學(xué)地球科學(xué)與工程學(xué)院,南京210023
隨著數(shù)據(jù)存儲(chǔ)、運(yùn)算、分析技術(shù)的進(jìn)步,人類(lèi)具備了處理海量數(shù)據(jù)、并從中提取信息的能力,新的科研范式——數(shù)據(jù)密集型科學(xué)研究應(yīng)運(yùn)而生。它正在潛移默化地影響著人類(lèi)生活,改變?nèi)祟?lèi)認(rèn)識(shí)和科學(xué)研究世界的思維方式(姜浩端,2013;張維明和唐九陽(yáng),2015;翟明國(guó)等,2018)。地質(zhì)學(xué)的研究突破依賴(lài)于對(duì)區(qū)域或全球各類(lèi)地質(zhì)數(shù)據(jù)的綜合分析,是典型的數(shù)據(jù)密集型科學(xué)。在大數(shù)據(jù)時(shí)代,地質(zhì)學(xué)正面臨著前所未有的機(jī)遇與挑戰(zhàn),地球科學(xué)家亟需改變傳統(tǒng)的思維方式,從因果關(guān)系為核心的邏輯思維方式轉(zhuǎn)變?yōu)橐躁P(guān)聯(lián)關(guān)系為核心的大數(shù)據(jù)思維方式(周永章等,2016;陳建平等,2017)。
沉積巖(物)占據(jù)了地球表面約70%的面積,是地球表層的重要組成部分。沉積物質(zhì)作為巖石圈的一部分,其演化受多種地球系統(tǒng)過(guò)程控制(生物、氣候、構(gòu)造等),從而忠實(shí)地記錄了地球表層圈層的演化過(guò)程。地球表層沉積物質(zhì)的總量、類(lèi)型、通量、時(shí)空分布等直接反映了巖石圈、生物圈、水圈、大氣圈動(dòng)態(tài)演化的過(guò)程,是探討大尺度時(shí)空模式下構(gòu)造、氣候和生物演化的重要參數(shù)和基本條件。在20世紀(jì)80年代,由全球沉積學(xué)家共同發(fā)起全球沉積地質(zhì)計(jì)劃(Global Sedimentary Geology Program,GSGP①The global sedimentary geology program:report of an international workshop,Fisher Island,Florida,August,1986.),以響應(yīng)板塊學(xué)說(shuō)、古海洋學(xué)、古氣候?qū)W以及沉積地質(zhì)學(xué)等的快速發(fā)展,旨在為開(kāi)展全球尺度的沉積地質(zhì)研究提供新的方向、機(jī)會(huì)和動(dòng)力?;贕SGP,沉積學(xué)家提出了三大關(guān)鍵性的研究主題:(1)全球性韻律和事件;(2)全球性演化的沉積學(xué)記錄;(3)全球性的沉積巖相分析,并將“白堊紀(jì)地質(zhì)記錄與全球地質(zhì)作用、資源、韻律和事件”作為第一個(gè)試點(diǎn)項(xiàng)目(陳友明,1987;劉寶珺,1988;葉德燎,1988;Ginsburg,1986)。這些重大科學(xué)問(wèn)題的提出成為推動(dòng)沉積學(xué)發(fā)展的主動(dòng)力。隨著近幾十年沉積學(xué)、地層學(xué)、古生物學(xué)、沉積地球化學(xué)、地質(zhì)年代學(xué)、地球觀測(cè)等學(xué)科的進(jìn)一步發(fā)展,地質(zhì)學(xué)家積累了海量的沉積學(xué)相關(guān)的數(shù)據(jù)。如何高效地整合各類(lèi)數(shù)據(jù),并從中挖掘這些數(shù)據(jù)中的價(jià)值,已經(jīng)成為沉積學(xué)家急需解決的新時(shí)代課題。
目前,國(guó)際上已涌現(xiàn)出一大批優(yōu)秀的沉積學(xué)相關(guān)數(shù)據(jù)庫(kù),如Macrostrat、GeoChron、SedDB、Ava Clastics,以及各種以文獻(xiàn)形式發(fā)表的數(shù)據(jù)集,如世界古水流數(shù)據(jù)集(Brand et al.,2015)、世界洋底沉積物數(shù)據(jù)集(Dutkiewicz et al.,2015)、世界氣候敏感性沉積物數(shù)據(jù)集(Boucot et al.,2013;Cao et al.,2018)、陸相沖積相泥質(zhì)巖數(shù)據(jù)集(McMahon et al.,2018)。這些數(shù)據(jù)庫(kù)(集)嘗試應(yīng)用大數(shù)據(jù)思維,從全球視野理解深時(shí)沉積物質(zhì)的演化和循環(huán)過(guò)程。下面進(jìn)行詳細(xì)介紹。
在20世紀(jì)50年代,俄羅斯Alexander Ronov團(tuán)隊(duì)開(kāi)始對(duì)地殼巖石的年齡、巖性和體積進(jìn)行時(shí)空綜合數(shù)據(jù)的人工編譯工作。他們主要借助于小比例尺(1:2500萬(wàn))的地質(zhì)圖及鉆井資料,通過(guò)相關(guān)參數(shù)提取和換算,得到巖石總體積、海洋覆蓋面積、平均沉降速率、主要巖性組合豐度等數(shù)據(jù)并編制了顯生宙整個(gè)過(guò)程中這些參數(shù)的變化圖(Ronov et al.,1969,1980)。該數(shù)據(jù)庫(kù)的數(shù)據(jù)收集過(guò)程長(zhǎng)達(dá)十余年,建設(shè)目的是用定量化的方式來(lái)探討巖石、古地理和構(gòu)造之間的關(guān)系和規(guī)律,在其建設(shè)初期取得了較多的重要研究成果。由于數(shù)據(jù)獲取的局限性,以及嚴(yán)重依賴(lài)科學(xué)家或團(tuán)隊(duì)的個(gè)體貢獻(xiàn),Alexander Ronov數(shù)據(jù)庫(kù)早已停止發(fā)展。
GeoChron和SedDB是隸屬于EarthChem(GeochemicalDatabases for the Earth, www.earthchem.org)的與沉積學(xué)相關(guān)的數(shù)據(jù)庫(kù)。EarthChem是一個(gè)社區(qū)驅(qū)動(dòng)、旨在保存、發(fā)現(xiàn)、訪問(wèn)和可視化最廣泛和最豐富的地球化學(xué)數(shù)據(jù)的信息網(wǎng)絡(luò)平臺(tái)和數(shù)據(jù)庫(kù)門(mén)戶(hù),由美國(guó)科學(xué)基金委(National science foundation,NSF)資助。
GeoChron(http://www.geochron.org)收集全球沉積巖碎屑礦物年代學(xué)數(shù)據(jù),以碎屑鋯石年齡數(shù)據(jù)為主;同時(shí)捕獲其元數(shù)據(jù),以允許將來(lái)重新計(jì)算,并與其它類(lèi)型的數(shù)據(jù)集成。該數(shù)據(jù)庫(kù)基于網(wǎng)頁(yè)端口,由哥倫比亞大學(xué)進(jìn)行管理。主要的數(shù)據(jù)來(lái)源有:從已發(fā)表文獻(xiàn)人工錄入、全球科學(xué)家的合作貢獻(xiàn)以及定年實(shí)驗(yàn)儀器的聯(lián)網(wǎng)自動(dòng)上傳。目前該數(shù)據(jù)庫(kù)共收錄全球范圍內(nèi)1630個(gè)年代學(xué)樣品,并進(jìn)行不定時(shí)更新(數(shù)據(jù)來(lái)自:http://www.geochron.org)。整體上數(shù)據(jù)覆蓋極不均勻,中國(guó)地區(qū)僅有約50個(gè)樣品(數(shù)據(jù)由本文作者在GeoChron官網(wǎng)統(tǒng)計(jì)得到)。用戶(hù)可以在網(wǎng)頁(yè)界面根據(jù)巖石類(lèi)型、礦物類(lèi)型、定年實(shí)驗(yàn)方法、地區(qū)等參數(shù)進(jìn)行數(shù)據(jù)篩選,并以HTML、XLS和XML等格式獲取數(shù)據(jù)集。
SedDB (http://www.earthchem.org/seddb) 是一個(gè)可檢索的、以海洋和陸地沉積物地球化學(xué)數(shù)據(jù)為主的關(guān)系型數(shù)據(jù)庫(kù),主要根據(jù)已發(fā)表的文獻(xiàn)數(shù)據(jù)匯編而成。該數(shù)據(jù)庫(kù)由美國(guó)Lamont-Doherty地球天文臺(tái)、俄勒岡州立大學(xué)、波士頓大學(xué)和博伊西州立大學(xué)聯(lián)合開(kāi)發(fā),由Lamont-Doherty地球天文臺(tái)負(fù)責(zé)運(yùn)營(yíng)和維護(hù)。SedDB匯編了大量地球表層沉積物質(zhì)的地球化學(xué)數(shù)據(jù),用于沉積學(xué)、地球化學(xué)、巖石學(xué)、海洋學(xué)和古氣候研究,同時(shí)用于學(xué)科教育領(lǐng)域。與GeoChron類(lèi)似,SedDB也歸檔了大量的元數(shù)據(jù),以便于后期的數(shù)據(jù)整合、重新計(jì)算和分析。截至2013年,該數(shù)據(jù)庫(kù)收錄了近10400個(gè)沉積巖樣品的近75萬(wàn)個(gè)獨(dú)立分析數(shù)據(jù)(數(shù)據(jù)統(tǒng)計(jì)來(lái)自:https://en.wikipedia.org/wiki/SedDB),用戶(hù)可以在web端口根據(jù)經(jīng)緯度、地理位置、樣品類(lèi)型等參數(shù)進(jìn)行數(shù)據(jù)檢索。該數(shù)據(jù)庫(kù)2014年以來(lái)已停止更新。
Ava Clastics(https://www.pds.group/ava-clastics)是一個(gè)世界級(jí)的沉積學(xué)模擬商用數(shù)據(jù)庫(kù),由英國(guó)PDS(Petrotechnical Data Systems)集團(tuán)和利茲大學(xué)地球與環(huán)境學(xué)院合作創(chuàng)立,主要由利茲大學(xué)管理。主要收錄古代和現(xiàn)代河流、淺海和深海序列的研究實(shí)例,作為儲(chǔ)層的類(lèi)似物,并將其數(shù)字化(轉(zhuǎn)化為石油行業(yè)軟件的巖相代碼),為能源行業(yè)提供服務(wù)。根據(jù)所收錄的數(shù)據(jù)和應(yīng)用目的,分為三個(gè)子數(shù)據(jù)庫(kù):
(1) FAKTS (Fluvial Architecture Knowledge Transfer System),是利茲大學(xué)河流研究小組(FRG,F(xiàn)luvial Research Group)為主導(dǎo)的、主要存儲(chǔ)河流沉積露頭數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù),目的是詳細(xì)描述河流相儲(chǔ)層特征并對(duì)其中儲(chǔ)藏的烴源巖進(jìn)行預(yù)測(cè)。目前收錄270個(gè)河流研究實(shí)例,共50544個(gè)河流相單元數(shù)據(jù)(數(shù)據(jù)來(lái)自:https://www.pds.group/ava-clastics/Databases#FAKTS);
(2) SMAKS (Shallow MarineArchitecture Knowledge System),是利茲大學(xué)淺海研究小組(SMRG,Shallow Marine Research Group) 為主導(dǎo)的、主要存儲(chǔ)淺海沉積露頭數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù),目的是數(shù)字化淺海沉積體系的所有基本特征并對(duì)淺海油氣開(kāi)發(fā)和勘探提供模型。目前收錄130個(gè)研究實(shí)例,共14633個(gè)淺海相單元數(shù)據(jù)(數(shù)據(jù)來(lái)自:https://www.pds.group/ava-clastics/Databases#SMAKS);
(3)DMAKS(Deep Marine Architecture Knowledge System),主要存儲(chǔ)來(lái)自古代露頭數(shù)據(jù)和現(xiàn)代深水碎屑巖系統(tǒng)觀測(cè)數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù),目的是為深水碎屑巖儲(chǔ)層的特征識(shí)別提供新的定量模型。目前收錄66個(gè)深海盆地體系研究實(shí)例,共9688個(gè)深海相單元數(shù)據(jù)(數(shù)據(jù)來(lái)自:https://www.pds.group/ava-clastics/Databases#DMAKS)。
除上述數(shù)據(jù)庫(kù)外,世界范圍內(nèi)還有很多與沉積學(xué)相關(guān)的數(shù)據(jù)庫(kù)(集)(表1),如以沉積地化數(shù)據(jù)為主的GSSID(Theglobalsedimentarysulfurisotope database),以露頭數(shù)據(jù)和模擬為主的SAND(Sedimentary ANalogs Database),以及隸屬于各個(gè)國(guó)家的地質(zhì)調(diào)查相關(guān)機(jī)構(gòu)的數(shù)據(jù)庫(kù),如英國(guó)地質(zhì)調(diào)查局(British Geological Survey,BGS),擁有400多個(gè)數(shù)據(jù)集,如物理數(shù)據(jù)集(鉆孔巖心、巖石、礦物)、文字記錄、檔案;中國(guó)地質(zhì)調(diào)查局(China Geological Survey)自主開(kāi)發(fā)的地質(zhì)云(Geocloud)涵蓋了大量地質(zhì)圖,包括大量地層、沉積相關(guān)的數(shù)據(jù)。
綜上,在大數(shù)據(jù)潮流到來(lái)之際,沉積學(xué)領(lǐng)域已經(jīng)涌現(xiàn)了大量?jī)?yōu)秀的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)主要關(guān)注某一類(lèi)或某幾類(lèi)數(shù)據(jù),依靠人工數(shù)字化團(tuán)隊(duì)對(duì)文獻(xiàn)中的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,是利用大數(shù)據(jù)思維模式擬解決區(qū)域、小規(guī)模和短時(shí)間尺度特定沉積學(xué)問(wèn)題的有效嘗試,但是在面臨全球、大規(guī)模和長(zhǎng)時(shí)間尺度綜合性的科學(xué)問(wèn)題時(shí),這些數(shù)據(jù)庫(kù)仍然有很多的局限和不足之處:(1)規(guī)模小,數(shù)據(jù)形式單一,建設(shè)和運(yùn)營(yíng)多依賴(lài)于個(gè)人科學(xué)家或單個(gè)科研團(tuán)隊(duì);(2)發(fā)展前景有限,運(yùn)行狀態(tài)完全依賴(lài)于資助項(xiàng)目的情況,一旦資助結(jié)束,數(shù)據(jù)庫(kù)即更新停滯;(3)數(shù)據(jù)覆蓋不均勻,數(shù)據(jù)收集過(guò)程受到科學(xué)家自身的研究興趣和主動(dòng)性的影響;(4)時(shí)空分辨率低,無(wú)法反映真實(shí)的信息;(5)很多文獻(xiàn)和數(shù)據(jù)庫(kù)資源不開(kāi)源,難以二次引用和進(jìn)一步整合。因此,在當(dāng)前數(shù)據(jù)更充足、技術(shù)更先進(jìn)的條件下,有必要建立更高精度、更全面的地學(xué)數(shù)據(jù)庫(kù),更高效地收集和挖掘沉積地質(zhì)領(lǐng)域的“暗數(shù)據(jù)”和長(zhǎng)尾數(shù)據(jù),進(jìn)一步探索和理解深時(shí)地質(zhì)歷史的演化過(guò)程和機(jī)制。
表1 國(guó)際主要沉積學(xué)相關(guān)數(shù)據(jù)庫(kù)(集)Table 1 Table of major sedimentological database or dataset
Macrostrat是一個(gè)綜合多學(xué)科、多尺度、多層次方法的數(shù)據(jù)共享平臺(tái),側(cè)重于定量總結(jié)巖石記錄時(shí)空分布格局,為科學(xué)家研究全球沉積巖記錄形成和破壞、大規(guī)模古生物演化等問(wèn)題提供了可能(Peters and Husson,2018),是現(xiàn)階段沉積大數(shù)據(jù)庫(kù)建設(shè)的一個(gè)范例。這里詳細(xì)介紹其數(shù)據(jù)庫(kù)的結(jié)構(gòu)、創(chuàng)新的工作模式以及相關(guān)的研究實(shí)例。
Macrostrat是以沉積學(xué)為主的地質(zhì)數(shù)據(jù)庫(kù),由美國(guó)威斯康辛大學(xué)Shanan E.Peters團(tuán)隊(duì)創(chuàng)立,于2005年正式啟動(dòng),由NSF資助。是基于MariaDB①M(fèi)ariaDB:一種數(shù)據(jù)庫(kù)管理系統(tǒng),由社區(qū)開(kāi)發(fā),與MySQL(目前最常見(jiàn)的開(kāi)源關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng))高度兼容.和PostGIS-enabled PostgreSQL②PostgreSQL:一種開(kāi)源的對(duì)象—關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng);PostGIS是PostgreSQL的一個(gè)擴(kuò)展,提供空間對(duì)象、空間索引、空間操作函數(shù)和空間操作符等空間信息服務(wù)功能(https://zh.wikipedia.org/).環(huán)境開(kāi)發(fā)的關(guān)系型地理空間數(shù)據(jù)庫(kù)和輔助性的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,可以通過(guò)網(wǎng)頁(yè)進(jìn)行訪問(wèn)(https://macrostrat.org)。
Macrostrat目前主要涵蓋北美、加勒比、新西蘭地區(qū)及IODP部分研究區(qū)的地層數(shù)據(jù)、PBDB(Paleobiology Database)的化石數(shù)據(jù)、USGS(United States Geological Survey)的地球化學(xué)數(shù)據(jù)、Mindat的礦物數(shù)據(jù)以及涵蓋全球范圍的地質(zhì)圖數(shù)據(jù)。Macrostrat致力于應(yīng)用這些新的數(shù)據(jù)來(lái)開(kāi)展研究。
(1)地層柱(Column),是Macrostrat的主要空間數(shù)據(jù)對(duì)象,是代表某個(gè)區(qū)域整體地質(zhì)概況的地層綜合體,最早由美國(guó)科學(xué)家在編制北美地層對(duì)比表(Correlation of Stratigraphic Units of North America,COSUNA)時(shí)提出。在COSUNA提供的地層對(duì)比表中,每個(gè)Column本質(zhì)上是一個(gè)復(fù)合地層柱,代表了整個(gè)盆地的綜合地質(zhì)信息。由于不同區(qū)域的構(gòu)造格架不同,因此人為地決定地層柱的分布密度,在構(gòu)造程度復(fù)雜的區(qū)域(如大陸邊緣)進(jìn)行加密,以保證獲取最有代表性的地質(zhì)信息(圖1d)。
(2)多邊形(Polygon),是地層柱映射的地理分區(qū)。多邊形提出的目的是定量分析整個(gè)北美區(qū)域的巖石地層信息。Macrostrat以地層柱為區(qū)域巖石地層信息的控制點(diǎn),按照Delaunary三角劃分原理(圖1 a-c)為每個(gè)控制點(diǎn)分配控制范圍,該方法保證了每個(gè)多邊形內(nèi)的任意一點(diǎn)與其控制點(diǎn)的距離,都小于與其他控制點(diǎn)的距離,并默認(rèn)該范圍內(nèi)的地層信息與地層柱一致。該過(guò)程是在R語(yǔ)言①R語(yǔ)言:一種自由軟件編程語(yǔ)言與操作環(huán)境,主要用于統(tǒng)計(jì)分析、繪圖、數(shù)據(jù)挖掘(https://zh.wikipedia.org/).環(huán)境下完成的,同時(shí)允許對(duì)多邊形進(jìn)行人為編輯,以保證多邊形的邊界與有地質(zhì)意義的特征邊界保持一致,如大的不整合面、斷層面等。由于多邊形的大小取決于地層柱的密度,因此其大小并不一致(圖1e)。
(3)單元(Units),是組成地層柱的基本元素,也是Macrostrat數(shù)據(jù)庫(kù)的核心要素,在數(shù)據(jù)錄入時(shí)被識(shí)別為與其他相鄰單元在古生物、巖性和/或年代上不同的巖體或沉積物。在Macrostrat中,每個(gè)單元具備地層名稱(chēng)、測(cè)量數(shù)據(jù)(如厚度)、沉積環(huán)境、礦物、化石、組成單元的巖性(一種或多種)等信息。所有單元屬性信息均以表格形式進(jìn)行存儲(chǔ)(圖2)。
2.3.1 地質(zhì)年代信息
Macrostrat儲(chǔ)存了多種相互關(guān)聯(lián)、在相對(duì)和絕對(duì)意義上與數(shù)值年齡相關(guān)的地層劃分方案(如年代地層、生物地層、巖石地層等)。其中年代地層單元具有數(shù)值年齡,主要參考由國(guó)際地層學(xué)委員會(huì)發(fā)布的最新數(shù)據(jù)(www.stratigraphy.org);對(duì)于沒(méi)有數(shù)值年齡限制的地層單元,Macrostrat以相鄰地層單元的數(shù)值年齡為標(biāo)尺,按照間隔進(jìn)行內(nèi)插標(biāo)定,系統(tǒng)不直接賦予數(shù)值年齡,但其在時(shí)間序列上的位置是確定的。這種管理地層劃分方案和地質(zhì)年代信息的方法更加簡(jiǎn)潔、透明,并具有數(shù)據(jù)管理優(yōu)勢(shì)。
圖1 多邊形面積劃分原理Fig.1 Schematic of polygon areas’division
圖2 Macrostrat數(shù)據(jù)庫(kù)核心元素及其關(guān)系示意圖(據(jù)Peters et al.,2018)Fig.2 Simplified schematic of core database elements and their relationships in Macrostrat(from Peters et al.,2018)
2.3.2 連續(xù)年齡模型
圖3 “箱式”年齡模型(a)與連續(xù)年齡模型(b)(據(jù)Peters et al.,2018)Fig.3 (a)“binned”versus(b)continuous age model(from Peters et al.,2018)
傳統(tǒng)的地層劃分普遍采取“箱式”年齡模型(圖3a),即地層單元沒(méi)有精確數(shù)值年齡的限制,而是默認(rèn)遍歷整個(gè)地質(zhì)年代間隔,如圖3a中的A單元被限定在整個(gè)泥盆系艾菲爾階,F(xiàn)單元被限定在吉維特階—弗拉階。而真實(shí)情況是,地層單元的持續(xù)時(shí)間往往比它們可以相互關(guān)聯(lián)的地質(zhì)年代間隔要短,因此利用箱式年齡模型進(jìn)行定量化必定產(chǎn)生較大的誤差。
為了進(jìn)行精確的地層量化,Macrostrat提出了地層的連續(xù)年齡模型(圖3b),(1)在時(shí)間軸上,根據(jù)古生物譜系、接觸關(guān)系等時(shí)代判斷指標(biāo),疊加地層單元A-F;(2)選擇頂、底具有數(shù)值年齡的地層段,對(duì)其內(nèi)部的巖石分布時(shí)間進(jìn)行調(diào)整。如已知單元A的底部為389 Ma,并非遍歷艾菲爾階,單元F的頂部為380 Ma,也并非遍歷整個(gè)弗拉階,則將A-F限定在389~380 Ma之間;對(duì)于無(wú)精確年齡限定的BCDE單元,將進(jìn)行內(nèi)插標(biāo)定數(shù)值年齡。Macrostrat建立這一模型的目的是進(jìn)行時(shí)間軸上的巖石量化,因此不強(qiáng)調(diào)各單元之間的物理接觸關(guān)系,而強(qiáng)調(diào)單元之間的時(shí)間連續(xù)性。這種沿時(shí)間軸以一定時(shí)間間隔獲取單元數(shù)量的量化方式,極大的推動(dòng)了巖石通量隨時(shí)間演化的研究。
Macrostrat通過(guò)三種方式來(lái)管理巖石地層名稱(chēng):(1)標(biāo)識(shí)相同地質(zhì)實(shí)體的地層名稱(chēng),如“Dakata砂巖”、“Dakata組”和“Dakata礫巖”,會(huì)被分別儲(chǔ)存,但指示相同的巖石單元,同時(shí)這些名稱(chēng)會(huì)與附加信息建立關(guān)聯(lián),包括地質(zhì)年齡、地理區(qū)域、參考文獻(xiàn)等;(2)對(duì)巖石地層名稱(chēng)建立基于從屬關(guān)系的層級(jí)體系,如“Dakata組”是三個(gè)“段”級(jí)別的更高一級(jí)名稱(chēng),這樣便于訪問(wèn)者以任何名稱(chēng)作為關(guān)鍵詞訪問(wèn)數(shù)據(jù)庫(kù)時(shí),可以獲得所有相關(guān)的地層數(shù)據(jù);(3)通過(guò)url來(lái)鏈接相關(guān)巖石地層名稱(chēng)術(shù)語(yǔ)的原始數(shù)據(jù)頁(yè)。
Macrostrat術(shù)語(yǔ)管理方式,不僅可以滿(mǎn)足巖石地層名稱(chēng)的高效存儲(chǔ),同時(shí)由于其巖石地層名稱(chēng)體系的動(dòng)態(tài)性和關(guān)聯(lián)性,數(shù)據(jù)庫(kù)能夠及時(shí)發(fā)現(xiàn)潛在的歧義和錯(cuò)誤術(shù)語(yǔ)并進(jìn)行改善和補(bǔ)充。
Macrostrat嵌入和鏈接了4種比例尺的全球地質(zhì)圖,目前已涵蓋超過(guò)200張地質(zhì)圖,超過(guò)15000個(gè)Macrostrat單元。Macrostrat的地質(zhì)圖數(shù)據(jù)庫(kù)存儲(chǔ)三種信息:(1)基于矢量的原始地圖對(duì)象(多邊形、直線、點(diǎn))及其屬性,并將其轉(zhuǎn)換為PostGIS環(huán)境;(2)所有進(jìn)行標(biāo)準(zhǔn)化的地圖,包括所有地質(zhì)圖對(duì)象共有的元素;(3)存儲(chǔ)地質(zhì)圖對(duì)象和Macrostrat實(shí)體的表格。Macrostrat地質(zhì)圖數(shù)據(jù)的核心是建立地質(zhì)圖多邊形與單元之間的聯(lián)系,同時(shí)任何其他與Macrostrat單元相關(guān)聯(lián)的數(shù)據(jù),如PBDB化石數(shù)據(jù)、古水流測(cè)量數(shù)據(jù)等都可以作為地圖多邊形的屬性進(jìn)行繼承,其最終目的是將地質(zhì)圖所包含的資料和信息用于現(xiàn)場(chǎng)地質(zhì)考察、數(shù)據(jù)綜合分析等。
Macrostrat提供美國(guó)國(guó)家海洋和大氣局(National Oceanic and Atmospheric Administration,NOAA)和美國(guó)國(guó)家航空和宇宙航行局(National Aeronautics and Space Administration,NASA)開(kāi)發(fā)的ETOPO1①ETOPO1:一種地形高程數(shù)據(jù),包括陸地高程數(shù)據(jù)和海洋海底地形數(shù)據(jù).和SRTM②SRTM(Shuttle Radar Topography Mission),即航天飛機(jī)雷達(dá)地形測(cè)繪任務(wù),主要任務(wù)為獲取地表雷達(dá)影像,繪制數(shù)字地形高程模型(百度百科).數(shù)字高程模型,將這些基于柵格的地形數(shù)據(jù)與Macrostrat基于GIS環(huán)境的地理數(shù)據(jù)相匹配,用戶(hù)可以通過(guò)移動(dòng)應(yīng)用程序或者網(wǎng)頁(yè)界面進(jìn)行訪問(wèn)。
古地理環(huán)境對(duì)地球系統(tǒng)科學(xué)的眾多問(wèn)題具有重要意義,如重建氣候敏感性沉積巖的時(shí)空分布(Cao et al.,2018)、研究大陸漂移對(duì)碳酸鹽沉積的影響(Walker et al.,2002)、探索板塊構(gòu)造與生物多樣性之間的聯(lián)系(Zaffos et al.,2017)。因此Macrostrat為數(shù)據(jù)提供了基于GPlates平臺(tái)的板塊構(gòu)造框架,可實(shí)現(xiàn)板塊構(gòu)造重建的交互式操作及各類(lèi)數(shù)據(jù)在地質(zhì)時(shí)間尺度上的可視化,并能夠通過(guò)地球動(dòng)力學(xué)計(jì)算將Macrostrat的各類(lèi)數(shù)據(jù)與板塊構(gòu)造模型有效結(jié)合。Macrostrat數(shù)據(jù)與Gplates模型的結(jié)合是基于Python語(yǔ)言來(lái)實(shí)現(xiàn)的,其中,Macrostrat提供巖石地層單元的地質(zhì)年齡和現(xiàn)代地理位置,Gplates提供相應(yīng)古地理位置,目前只針對(duì)560 Ma以來(lái)的古地理重建。
為了充分挖掘Macrostrat的現(xiàn)有數(shù)據(jù),其團(tuán)隊(duì)開(kāi)發(fā)了一系列快捷方便的網(wǎng)頁(yè)端口或者移動(dòng)端的軟件工具,滿(mǎn)足于各類(lèi)用戶(hù)需求。
(1)Macrostrat Beta
是Macrostrat專(zhuān)門(mén)用于數(shù)據(jù)訪問(wèn)的網(wǎng)頁(yè)端口,目前已經(jīng)更新至0.3版本。通過(guò)該端口,用戶(hù)可以了解數(shù)據(jù)庫(kù)當(dāng)前的建設(shè)情況以及進(jìn)行相關(guān)數(shù)據(jù)和文獻(xiàn)下載;同時(shí)新開(kāi)發(fā)的功能也將在該平臺(tái)進(jìn)行展示。
(2)Sift
是Macrostrat的搜索網(wǎng)絡(luò)界面,是一款面向大眾的可視化信息篩選器,目前可以根據(jù)時(shí)代、地層單元、巖性、地層柱、地層柱組、沉積環(huán)境、礦產(chǎn)類(lèi)型對(duì)數(shù)據(jù)進(jìn)行篩選。但Sift目前無(wú)法進(jìn)行篩選條件的組合,如同時(shí)限定巖性和時(shí)代,另外也無(wú)法做到CSV源文件的導(dǎo)出。
對(duì)于有更精確的數(shù)據(jù)分析需求的用戶(hù),Macrostrat提供 API(Application Program Interface應(yīng)用程序界面)接口,通過(guò)API接口可以實(shí)現(xiàn)更自由的篩選數(shù)據(jù),并獲得CSV等格式的源數(shù)據(jù)。用戶(hù)可以通過(guò)網(wǎng)頁(yè)瀏覽器按照Macrostrat的預(yù)設(shè)規(guī)則,直接以API命令行形式訪問(wèn)數(shù)據(jù)庫(kù)核心,篩選并導(dǎo)出數(shù)據(jù)。
(3)Map
是基于Macrostrat所收錄的地質(zhì)圖開(kāi)發(fā)的網(wǎng)絡(luò)搜索界面,用于檢索全球不同比例尺的地質(zhì)圖。
(4)Rockd
是Macrostrat團(tuán)隊(duì)開(kāi)發(fā)的移動(dòng)端APP,利用Macrostrat的API進(jìn)行數(shù)據(jù)勘探和可視化,內(nèi)部包括全球范圍的地質(zhì)圖以及指向Macrostrat和Geodeepdive的鏈接。Rockd用戶(hù)可以輕松地記錄實(shí)時(shí)地質(zhì)現(xiàn)象,掌握實(shí)時(shí)考察的構(gòu)造位置、地層概況,并使用實(shí)地的位置為附近的地質(zhì)單元、化石提供空間信息建議。
解析地質(zhì)記錄的時(shí)空分布結(jié)構(gòu),需要獲取以下量化數(shù)據(jù):巖石數(shù)量、巖石類(lèi)型、巖石地理、巖石沉積環(huán)境以及巖石記錄的時(shí)間連續(xù)性。時(shí)間連續(xù)性指的是地質(zhì)記錄以一定的時(shí)空分辨率不間斷地保存地質(zhì)歷史的程度。
Macrostrat地層巖石量化的核心思想是:在地球表面的某特定位置的穩(wěn)定沉積環(huán)境下,沉積物隨時(shí)間流逝不斷就位、沉積,直到穩(wěn)定環(huán)境發(fā)生改變。Macrostrat將形成于穩(wěn)定沉積階段的三維沉積體定義為一個(gè)沉積包(Packages)。沉積包之間發(fā)生沉積環(huán)境的變化,表現(xiàn)為兩個(gè)方面,一是沉積停止甚至開(kāi)始侵蝕,二是沉積物的性質(zhì)發(fā)生變化,將這兩種環(huán)境變化對(duì)應(yīng)的階段稱(chēng)為“間斷”(gap)。
沉積包類(lèi)似于由層序邊界所限定的沉積體系域,不同之處在于層序地層界面是穿時(shí)的,而沉積包在時(shí)間軸上具有時(shí)間連續(xù)性。為了對(duì)地層柱進(jìn)行量化,Macrostrat類(lèi)比古生物學(xué)描述物種時(shí)間跨度的方式,將一個(gè)被“間斷”所約束的沉積包設(shè)想為一個(gè)生物分類(lèi)單元(圖4),則給定任意的時(shí)間間隔,所有沉積包將歸屬于以下四種之一:沉積包僅跨越時(shí)間間隔底界(bL)、沉積包限定在時(shí)間間隔內(nèi)(FL)、沉積包同時(shí)跨越時(shí)間間隔頂、底界(bt)、沉積包僅跨越了時(shí)間間隔頂界(Ft)。從而,地質(zhì)記錄可以借鑒古生物學(xué)的算法,計(jì)算時(shí)間軸上沉積包的“多樣性”、“起源率”和“滅絕率”。
圖4 給定時(shí)間間隔內(nèi)的沉積包類(lèi)型Fig.4 Types of gap-bounded sediment packages present within a stratigraphic interval
地層柱代表了盆地的綜合地質(zhì)信息,模擬盆地尺度的量化是大陸尺度量化的基礎(chǔ)。模擬的假設(shè)前提是在相鄰時(shí)間間隔內(nèi)的沉積包的持續(xù)分布概率遵循Poisson過(guò)程,即每個(gè)時(shí)間間隔內(nèi)不同沉積包的發(fā)生是隨機(jī)事件。通過(guò)統(tǒng)計(jì)時(shí)間軸上沉積包的類(lèi)型和數(shù)量,即可對(duì)盆地的地層演化進(jìn)行量化分析(圖5)。
(1)以單個(gè)地層柱為對(duì)象,確定縱向每一時(shí)間間隔內(nèi)沉積包的類(lèi)型。如圖5,紅色陰影代表一地層柱(Column 5),由沉積間斷劃分為兩個(gè)沉積包Package1、Package2。在t1-t6的所有時(shí)間間隔內(nèi),Package1均為bt類(lèi)型沉積包;t6-t7內(nèi),Package1僅跨越了t6,為bL類(lèi)型沉積包;t7-t18對(duì)應(yīng)沉積間斷;t18-t19的頂部出現(xiàn)沉積,Package2為Ft類(lèi)型沉積包;t19-t20內(nèi),Package2為bt類(lèi)型沉積包。
圖5 理想化盆地尺度地層量化模型Fig.5 Schematic of stratigraphic quantification model at basin scale
(2)統(tǒng)計(jì)每一時(shí)間間隔內(nèi)所有地層柱各類(lèi)型沉積包的數(shù)量。如在t1-t2時(shí)間間隔內(nèi),僅C3-C8地層柱有沉積作用,C3、C8表現(xiàn)為僅跨越頂界t2的bL類(lèi)型沉積包,C4-C7表現(xiàn)為同時(shí)跨越頂(t2)、底(t1)界的bt類(lèi)型沉積包,即Xbl=2,Xbt=4,XFt=0,XFL=0(X代表沉積包的數(shù)量)。
(3)根據(jù)經(jīng)驗(yàn)公式計(jì)算各項(xiàng)量化指標(biāo):
N=Xbt+XFt+Xbl+XFL,N代表地層多樣性,用于衡量盆地在某時(shí)間段內(nèi)巖石沉積包多樣性;
p=-In[Xbt/(Xbt+XFt)],p代表地層起源率,用于衡量盆地在某時(shí)間段內(nèi)巖石沉積包新生的速率;
q=-In[Xbt/(Xbt+Xbl)],q代表地層滅絕率,用于衡量盆地在某時(shí)間段內(nèi)巖石沉積包滅絕的速率。
(4)繪制演化曲線,解釋定量化數(shù)據(jù)產(chǎn)生的曲線的地質(zhì)學(xué)意義。如對(duì)圖5的模擬可以得到以下結(jié)論:1)沉積地區(qū)收縮并快速向盆地移動(dòng)時(shí),形成不整合,對(duì)應(yīng)地層多樣性的大幅度脈沖(A);2)當(dāng)向盆地的沉積轉(zhuǎn)變停止并且保存的沉積記錄向空間擴(kuò)張時(shí),地層滅絕率下降為0(B);3)隨著沉積區(qū)的擴(kuò)張,地層多樣性必然增加(C);4)海侵使得沉積向陸轉(zhuǎn)變,地層滅絕率和起源率都開(kāi)始增加,即向陸的沉積作用提高了地層起源率,但是由于盆地內(nèi)缺乏沉積物,地層滅絕率也相應(yīng)提高(D);5)最大洪泛面時(shí)對(duì)應(yīng)最高的地層多樣性(E)。
整個(gè)北美大陸由多個(gè)沉積盆地組成,沉積盆地的地質(zhì)信息由地層柱來(lái)表示,因此大陸尺度的量化將按照單個(gè)盆地依次處理,不同盆地的貢獻(xiàn)將根據(jù)其面積進(jìn)行加權(quán)。
地層綜合柱狀圖反映了區(qū)域的地質(zhì)信息,其具備了巖石種類(lèi)、時(shí)代范圍、厚度以及巖石地層單元、接觸關(guān)系等屬性,以國(guó)際地層委員會(huì)給出的地質(zhì)年代為時(shí)間間隔,很容易提取每個(gè)時(shí)間間隔對(duì)應(yīng)的沉積包類(lèi)型及數(shù)量。Macrostrat按照該方法人工編錄統(tǒng)計(jì)了COSUNA和加拿大地質(zhì)調(diào)查局(Geological Survey of Canada,GSC)顯生宙所有地層柱的沉積包,并按照沉積環(huán)境或巖性對(duì)沉積包進(jìn)行分類(lèi)。
Macrostrat通過(guò)以上大陸尺度的量化過(guò)程,獲得初步量化數(shù)據(jù):以“階”(1~3 Ma)為時(shí)間間隔的不同類(lèi)型、不同巖性、不同沉積環(huán)境的沉積包數(shù)量及其總量。以該數(shù)據(jù)為基礎(chǔ),Shanan E.Peters團(tuán)隊(duì)對(duì)北美大陸顯生宙沉積物的演化模式及相關(guān)科學(xué)問(wèn)題進(jìn)行了深入研究,將在第五部分進(jìn)行詳細(xì)論述。
(1)Macrostrat借助計(jì)算機(jī)技術(shù)為地層柱分配了地理多邊形,每個(gè)多邊形具有確定的面積(圖1)。根據(jù)地層柱給出的厚度,可以計(jì)算沉積物質(zhì)的體積(Meyers and Peters,2011)。
(2)借助于對(duì)地質(zhì)圖的解析來(lái)計(jì)算地層分布面積。由計(jì)算機(jī)地質(zhì)制圖得到的電子地質(zhì)圖,其巖石單元包括了一系列數(shù)字屬性數(shù)據(jù):面積、時(shí)代、巖石類(lèi)型和名稱(chēng)信息等,因此可以通過(guò)直觀的統(tǒng)計(jì)學(xué)手段得到各時(shí)間間隔內(nèi)的不同種類(lèi)巖石的面積分布。非電子版地質(zhì)圖,首先要對(duì)其進(jìn)行數(shù)字掃描,利用圖像分析軟件將地質(zhì)圖轉(zhuǎn)化為地理信息系統(tǒng)(GIS)格式,對(duì)圖上每種巖石類(lèi)型或每個(gè)巖石單元占據(jù)的像素計(jì)數(shù),通過(guò)在每張地質(zhì)圖上的若干個(gè)1°×1°的區(qū)域中,將累計(jì)像素縮放到真實(shí)區(qū)域,從而將其轉(zhuǎn)化為大陸面積(Wilkinson et al.,2009)。
綜合分析已發(fā)表的海量的文獻(xiàn)數(shù)據(jù),人工操作非常耗時(shí),并且會(huì)生成一個(gè)與主要數(shù)據(jù)源斷開(kāi)連接的非擴(kuò)展數(shù)據(jù)庫(kù)。因此亟需建設(shè)一個(gè)可動(dòng)態(tài)擴(kuò)展的、可靠的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,以促進(jìn)發(fā)現(xiàn)、獲取、利用和引用已發(fā)表文獻(xiàn)中的數(shù)據(jù)和知識(shí)。
Macrostrat除了提供開(kāi)源的沉積學(xué)數(shù)據(jù)外,還提供了針對(duì)文獻(xiàn)的機(jī)器閱讀技術(shù)平臺(tái):Geodeepdive,即自動(dòng)從已發(fā)表文獻(xiàn)的文本、表格和圖片中鎖定并提取有用信息的技術(shù)。Geodeepdive機(jī)器閱讀主要涉及的計(jì)算機(jī)技術(shù)包括光學(xué)字符辨識(shí)、文檔布局識(shí)別、自然語(yǔ)言處理和結(jié)構(gòu)化查詢(xún)語(yǔ)言。Geodeepdive的目的是:(1)降低數(shù)據(jù)集成的時(shí)間和成本,將科學(xué)家的工作重心從緩慢且昂貴的數(shù)據(jù)整合工作轉(zhuǎn)移到創(chuàng)造性的假設(shè)測(cè)試;(2)測(cè)試關(guān)鍵結(jié)論的重現(xiàn)性,加深對(duì)重大科學(xué)問(wèn)題的理解;(3)促進(jìn)機(jī)器閱讀技術(shù)發(fā)展,尤其是在科研領(lǐng)域中得到部署和驗(yàn)證;(4)基于現(xiàn)有文獻(xiàn)中的字段和樣本,更集中、高效、智能地生成衍生數(shù)據(jù)。為了實(shí)現(xiàn)以上目的,Geodeepdive與8大出版商(圖6)達(dá)成協(xié)議,獲取巨大的文獻(xiàn)數(shù)據(jù)庫(kù)用于機(jī)器閱讀,且保證文獻(xiàn)庫(kù)中的原文保密,但數(shù)據(jù)公開(kāi)。
Geodeepdive的工作模式分為3個(gè)步驟。第1步,科學(xué)家提出科學(xué)問(wèn)題,確定需要挖掘的數(shù)據(jù),然后使用Python、JavaScript、PostgreSQL等計(jì)算機(jī)語(yǔ)言寫(xiě)出算法,描述數(shù)據(jù)挖掘思路,即如何提取特征信息;第2步,使用超級(jí)計(jì)算機(jī)高速處理文獻(xiàn)庫(kù)的海量文獻(xiàn),按照預(yù)設(shè)算法進(jìn)行挖掘,并生成因子圖(用于表征各實(shí)體之間的關(guān)系);第3步,輸出機(jī)器挖掘的結(jié)構(gòu)化數(shù)據(jù)和學(xué)習(xí)結(jié)果(圖6)。通過(guò)機(jī)器閱讀的工作模式我們可以發(fā)現(xiàn),機(jī)器閱讀或者文本挖掘過(guò)程是一個(gè)邊工作邊學(xué)習(xí)的過(guò)程,隨著前提的改變或者新的數(shù)據(jù)的加入,產(chǎn)生的結(jié)果可能發(fā)生變化。同時(shí),機(jī)器閱讀系統(tǒng)能夠利用非結(jié)構(gòu)化的多源科學(xué)文獻(xiàn)構(gòu)建一個(gè)結(jié)構(gòu)化的數(shù)據(jù)庫(kù)。其中的數(shù)據(jù)都是具有概率的事實(shí),整體上是一個(gè)與主要數(shù)據(jù)源緊密耦合的概率數(shù)據(jù)庫(kù),其數(shù)據(jù)質(zhì)量可以與人工閱讀和編譯數(shù)據(jù)生成的數(shù)據(jù)庫(kù)相媲美(Zhang et al.,2013;Peters et al.,2014a)。
例如,基于Geodeepdive的衍生工具,Paleodeepdive(PDD),主要服務(wù)于對(duì)化石數(shù)據(jù)的挖掘,用于加深對(duì)大規(guī)模生命演化史的理解,包括長(zhǎng)期的分類(lèi)多樣性和基因組級(jí)滅絕和起源速率等問(wèn)題的研究。通過(guò)PDD自動(dòng)提取生物分類(lèi)單元、地質(zhì)巖層、地理位置和地質(zhì)時(shí)間間隔等數(shù)據(jù)所建立的綜合古生物數(shù)據(jù)庫(kù),在生物宏演化模式研究上獲得了與人工匯編的PBDB相似的結(jié)果,因此有理由相信由機(jī)器閱讀產(chǎn)生的結(jié)果是真實(shí)可信的。除此之外機(jī)器閱讀更大優(yōu)勢(shì)在于,它生成的數(shù)據(jù)庫(kù)類(lèi)型與手動(dòng)填充的數(shù)據(jù)庫(kù)有本質(zhì)的不同。在PDD生成的概率數(shù)據(jù)庫(kù)中,每條數(shù)據(jù)都具有相應(yīng)的準(zhǔn)確性概率,且與其源文件中的上下文緊密耦合,甚至提供url鏈接。因此,只要對(duì)任何一個(gè)組件給出反饋,或者向系統(tǒng)添加額外的規(guī)則或數(shù)據(jù),就可以系統(tǒng)地提高整個(gè)數(shù)據(jù)庫(kù)的質(zhì)量。更重要的是,PDD的數(shù)據(jù)采集過(guò)程是基于對(duì)整個(gè)文檔的可視化和文本分析的,并且系統(tǒng)可以很容易地容納更復(fù)雜的數(shù)據(jù)類(lèi)型,例如生物插圖中的形態(tài)學(xué)數(shù)據(jù)和相關(guān)的文本描述。因此,利用Paleodeepdive的系統(tǒng)能夠識(shí)別和提取當(dāng)前不屬于數(shù)據(jù)庫(kù)但與上下文相關(guān)的復(fù)雜數(shù)據(jù)(Peters et al.,2014b)。
Geodeepdive數(shù)字圖書(shū)館和機(jī)器閱讀體系與Macrostrat平臺(tái)相連,隨時(shí)添加、編輯和發(fā)布新的地層、巖性、環(huán)境等數(shù)據(jù),致力于用新的數(shù)據(jù)不斷產(chǎn)出新的結(jié)果。
Macrostrat收錄了以北美地區(qū)為主的大量的地層和沉積學(xué)相關(guān)數(shù)據(jù),但其核心價(jià)值不是體現(xiàn)在數(shù)據(jù)量的規(guī)模效應(yīng),而是基于數(shù)據(jù)相關(guān)性分析提供科學(xué)預(yù)測(cè)和假設(shè)(張旗和周永章,2017)。Macrostrat的首要目的就是幫助沉積學(xué)家解決全球尺度的大科學(xué)問(wèn)題,如驗(yàn)證巖石保存和再旋回的地質(zhì)假說(shuō)、探索生物及生物化學(xué)演化的驅(qū)動(dòng)力。
前人對(duì)地質(zhì)歷史時(shí)期沉積物質(zhì)總量的循環(huán)規(guī)律主要有兩種認(rèn)識(shí)。
圖6 Geodeepdive工作模式圖Fig.6 Geodeepdive work pattern diagram
傳統(tǒng)觀點(diǎn)認(rèn)為:由于侵蝕作用的累積,沉積巖總量必然隨年齡增長(zhǎng)而減少,并且具有指數(shù)衰減的趨勢(shì)(Gregor,1968)。該觀點(diǎn)得到不同學(xué)者的進(jìn)一步驗(yàn)證。Wilkinson等(2009)通過(guò)地質(zhì)圖面積提取發(fā)現(xiàn)沉積巖和火山巖的量具有隨年齡增長(zhǎng)呈指數(shù)衰減的趨勢(shì),但是侵入巖和變質(zhì)巖則無(wú)此趨勢(shì),其解釋為不同的巖體形成于不同深度,接受到不同強(qiáng)度的侵蝕和埋藏作用。近來(lái),Husson和Peters(2018)通過(guò)對(duì)埋藏速率和侵蝕速率進(jìn)行模擬來(lái)觀察保存巖石記錄的演化趨勢(shì)。其結(jié)果表明:無(wú)論埋藏和侵蝕速率是否是周期性或者在某一范圍波動(dòng),只要侵蝕作用存在,巖石記錄均隨年齡增長(zhǎng)而減小且趨于指數(shù)衰減。
第二種觀點(diǎn)認(rèn)為:大陸尺度下的沉積物總量是由總凈沉積物累積速率決定的,并且具有周期性波動(dòng)的規(guī)律(Ronov et al.,1980)。近年來(lái),通過(guò)對(duì)地表不同年齡沉積物分布圖像開(kāi)展譜分析和回歸分析發(fā)現(xiàn):沉積物總量的演化周期接近56 Myr,與造山作用的周期相一致;顯生宙沉積物的總量變化整體具有“M”形的演化趨勢(shì),與超大陸的旋回相關(guān)(Peters,2008;Meyers and Peters,2011)。
圖7 顯生宙北美地區(qū)沉積包隨時(shí)間序列的變化圖(據(jù)Peters,2006)Fig.7 Time series of the total number of sedimentary packages in North America at Phanerozoic(from Peters,2006)
近年來(lái),Shanan E.Peters團(tuán)隊(duì)采用大數(shù)據(jù)和地層定量化的方法對(duì)沉積物質(zhì)循環(huán)問(wèn)題開(kāi)展了深入研究。該團(tuán)隊(duì)對(duì)顯生宙不同巖性的沉積物進(jìn)行量化處理之后發(fā)現(xiàn):(1)在巖相組成方面,古生代沉積巖以碳酸鹽為主,至新生代則幾乎完全轉(zhuǎn)變?yōu)殛懺此樾紟r(圖7),研究者將這種轉(zhuǎn)變與勞倫大陸從低緯向高緯的移動(dòng)聯(lián)系起來(lái);(2)沉積物總量在二疊紀(jì)—三疊紀(jì)之交表現(xiàn)出明顯的脈沖(圖7),將其解釋為超大陸的旋回(Peters,2006)。另外,Peters和Husson(2017)還基于不同的沉積環(huán)境對(duì)沉積物總量的演化曲線進(jìn)行指數(shù)擬合(圖8),結(jié)果表明:不同沉積環(huán)境的巖石具有不同的指數(shù)擬合程度,非海相和深海相沉積物的總量隨著年齡增長(zhǎng)呈指數(shù)降低,而淺海相沉積物具有多峰分布的特征。這是因?yàn)樯詈O喑练e物只有在洋殼的某些部分形成,其破壞主要由俯沖控制,因此隨著時(shí)間變老沉積物總量呈指數(shù)下降;非海相沉積環(huán)境下,侵蝕和巖石破壞作用是其主要控制因素,但沉積物所處的構(gòu)造和環(huán)境極不均勻,導(dǎo)致非海相沉積物的指數(shù)匹配程度相對(duì)較差;對(duì)于淺海相環(huán)境,其沉積物分布面積廣,數(shù)量大,成因多樣,幾乎可以在所有盆地的任何發(fā)育階段進(jìn)行大范圍沉積,因此沉積物不隨年齡變老呈指數(shù)降低(Husson and Peters,2017;Peters and Husson,2017)。
綜上,沉積物質(zhì)總量的演化主要受控于超大陸的旋回(Ronov et al.,1980;Peters,2008;Meyers and Peters,2011),侵蝕作用驅(qū)使沉積物總量隨年齡增長(zhǎng)而呈指數(shù)衰減(Wilkinsonetal.,2009;Husson and Peters,2018);不同巖性的沉積物具有不同的沉積、侵蝕和埋藏條件;不同的沉積環(huán)境下,沉積物的沉積、保存以及演化模式也各不相同(Peters,2006;Husson and Peters,2017,2018;Peters and Husson,2017)。因此在研究沉積物質(zhì)循環(huán)問(wèn)題時(shí),應(yīng)對(duì)不同巖性、不同沉積環(huán)境的沉積物進(jìn)行分別審視。
宏演化(Macroevolution)指在物種層面或更高層次的進(jìn)化,包括遺傳學(xué)、形態(tài)學(xué)、分類(lèi)學(xué)、生態(tài)學(xué)等上的變化(Mayr,1982),與以基因演化、分子演化相關(guān)的微觀演化相對(duì)應(yīng)(Reznick and Ricklefs,2009)。前人研究發(fā)現(xiàn),現(xiàn)有的沉積巖記錄與化石多樣性之間存在相關(guān)性,這種相關(guān)性在海洋環(huán)境中尤為明顯(Hannisdal and Peters,2011)。因此,深刻理解沉積記錄和化石記錄之間的協(xié)變機(jī)制,對(duì)于理解生物多樣性、物種起源、物種滅絕是至關(guān)重要的。
圖8 Macrostrat數(shù)據(jù)庫(kù)沉積巖數(shù)量的時(shí)間序列演化圖(據(jù)Peters and Husson,2017)Fig.8 Macrostrat database sedimentary rock quantity(Based on Peters and Husson,2017)
目前對(duì)于巖石—化石協(xié)變機(jī)制,學(xué)術(shù)界仍然存在爭(zhēng)議。一方面,通過(guò)現(xiàn)有化石記錄總結(jié)得到的多樣性、起源和滅絕模式很可能是顯生宙沉積巖記錄中不完整的化石記錄所導(dǎo)致的產(chǎn)物,即取樣偏差導(dǎo)致(Peters and Foote,2002;Mcgowan and Smith,2008),一個(gè)明顯的例子是地層不整合的出現(xiàn)嚴(yán)重影響古生物學(xué)家對(duì)生物多樣性的評(píng)估(Peters and Foote,2001,2002),導(dǎo)致生物分類(lèi)單元的人為聚類(lèi)(Holland,1995);另一方面,盡管地質(zhì)歷史的生物多樣性只能從不完整的巖石和化石記錄中取樣,但巖石記錄的變化可能與生命的宏演化具有相同的控制因素,即一種共同的地質(zhì)原因既決定了真實(shí)的滅絕速率,也決定了保存下來(lái)的沉積巖的數(shù)量(Heim and Peters,2011;Peters and Heim,2011)。
Macrostrat數(shù)據(jù)庫(kù)的沉積巖石記錄和PBDB全球范圍的化石記錄(Peters and Mcclennen,2016),為研究沉積物演化、生物宏演化及其協(xié)變機(jī)制提供了數(shù)據(jù)基礎(chǔ)。PBDB的化石記錄可以與Macrostrat中的地層單元及其沉積環(huán)境相互匹配(Peters et al.,2018)。因此,以間斷為邊界、由沉積包組成的Macrostrat定量化數(shù)據(jù)可以用來(lái)檢驗(yàn)取樣偏差假說(shuō)(Peters and Heim,2010)。近年來(lái),Peters和Heim(2010,2011)將北美沉積物和古生物演化數(shù)據(jù)進(jìn)行對(duì)比發(fā)現(xiàn):地層間斷與物種起源或滅絕沒(méi)有直接相關(guān)性;“地層起源率”和生物起源率之間亦沒(méi)有強(qiáng)烈相關(guān)性;而“地層滅絕率”和生物滅絕率呈明顯正相關(guān),最突出的表現(xiàn)為沉積物質(zhì)演化過(guò)程中大的沉積物間斷與地質(zhì)歷史古生物大滅絕事件是相對(duì)應(yīng)的(圖9),這種沉積物演化與生物起源和滅絕的不對(duì)稱(chēng)相關(guān)性表明巖石—化石協(xié)變機(jī)制不是由取樣偏差決定的(Heim and Peters,2011;Peters and Heim,2010,2011)。Peters和Heim(2011)進(jìn)一步研究發(fā)現(xiàn),海洋生物的滅絕與海洋沉積區(qū)收縮期間發(fā)生的環(huán)境變化有因果關(guān)系,而海洋生物的起源與沉積區(qū)的擴(kuò)張卻沒(méi)有呈現(xiàn)類(lèi)似的關(guān)系,進(jìn)一步驗(yàn)證了上述結(jié)論。
圖9 總物種豐度(黑線)與沉積物總量(陰影)的時(shí)間序列演化圖(據(jù)Peters,2005;Barnosky et al.,2011改)Fig.9 Global genus richness(black line)and rock quantity(shaded area)plotted at age of interval base(Revised after Peters,2005;Barnosky et al.,2011)
綜上,前人對(duì)沉積和古生物大數(shù)據(jù)的對(duì)比研究表明:從生物滅絕的角度來(lái)看,沉積記錄和化石記錄的協(xié)變關(guān)系是地球系統(tǒng)之間直接或間接聯(lián)系的綜合記錄;控制二者的共同機(jī)制可能涉及氣候、構(gòu)造、沉積和生物進(jìn)化之間的眾多直接和間接聯(lián)系和反饋(Heim and Peters,2011;Peters and Heim,2010,2011)。
沉積記錄的時(shí)空分布格局受多種地球過(guò)程(生物過(guò)程、構(gòu)造過(guò)程、氣候過(guò)程)控制,反過(guò)來(lái)沉積過(guò)程也在不同程度上改變和影響著地球過(guò)程(Hannisdal and Peters,2010;Peters,2008)。因此,在地質(zhì)歷史中得以保存的沉積巖是了解構(gòu)造、氣候和生命過(guò)程的重要檔案。
(1)構(gòu)造過(guò)程
沉積盆地的演化與大地構(gòu)造演化密切相關(guān),這是因?yàn)榘鍓K構(gòu)造或者板塊的相對(duì)位置控制著沉積盆地的類(lèi)型(Dickinson,1974;Ingersoll 1988;Busby and Ingersoll,1995),區(qū)域的構(gòu)造運(yùn)動(dòng)則通過(guò)控制對(duì)沉積物源區(qū)或沉積空間的形成和破壞來(lái)影響著區(qū)域的沉積記錄(Peters,2005;MeyersandPeters,2011),因此,地質(zhì)歷史的沉積物與構(gòu)造旋回往往同步演化,同時(shí)驅(qū)動(dòng)生物演化(圖10)(Ronov et al.,1980;Zaffos et al.,2017;Peters and Heim,2011)。
圖10 沉積物演化、海相生物演化(據(jù)Hannisdal and Peters,2011)與板塊演化,板塊的碎片化指數(shù)來(lái)源于以百萬(wàn)年為單位計(jì)算的EarthByte古地理重建模型(據(jù)Zaffos et al.,2017改)Fig.10 Sedimentary,marine biological and plate tectonic evolution,an index of continental block fragmentation derived from the EarthByte paleogeographic reconstruction models calculated in million-year increments(Revised after Hannisdal and Peters,2011;Zaffos et al.,2017)
(2)氣候過(guò)程
氣候過(guò)程主要通過(guò)驅(qū)動(dòng)海平面變化影響區(qū)域和全球的盆地沉積過(guò)程(Miller et al.,2011;Meyers and Peters,2011);同時(shí),冰期-間冰期的旋回也可作為沉積物類(lèi)型的控制因素(Houten,2000)。反過(guò)來(lái),沉積過(guò)程可以通過(guò)掩埋和釋放與氣候變化相關(guān)的元素(主要是碳和硫)來(lái)調(diào)節(jié)全球氣候,例如當(dāng)前以碳酸鹽或有機(jī)碳形式儲(chǔ)存在沉積物中的碳遠(yuǎn)遠(yuǎn)超過(guò)了其它碳庫(kù),因此在某些時(shí)間尺度上,海洋-大氣和地球表層之間的碳交換必然是推動(dòng)氣候變化的重要因素之一(Peters,2005)。
(3)生物過(guò)程
生物過(guò)程通過(guò)多種方式(如生物擾動(dòng))直接影響沉積過(guò)程(Peters,2005),如泥盆紀(jì)陸生植物的出現(xiàn)直接改變了沖積相泥質(zhì)巖的比例(McMahon and Davies,2018)。反過(guò)來(lái),沉積過(guò)程通過(guò)影響環(huán)境來(lái)對(duì)生物過(guò)程的變化進(jìn)行反饋,例如:生命和大氣氧氣歷史上的主要特征就是通過(guò)定量描述保存沉積物總量隨時(shí)間變化的幅度反映出來(lái)的(Peters et al.,2018)。近年來(lái),Husson和 Peters(2017,2018)通過(guò)大數(shù)據(jù)對(duì)比研究發(fā)現(xiàn):沉積巖的數(shù)量與地質(zhì)歷史氧氣的變化以及生命的演化之間存在著強(qiáng)烈的過(guò)程聯(lián)系,表明沉積巖的不穩(wěn)定演化(有機(jī)碳相關(guān)的氧化還原、硅酸鹽風(fēng)化、洋殼沉積物的蝕變)驅(qū)動(dòng)了氧氣變化,進(jìn)而驅(qū)動(dòng)生命的演化(Husson and Peters,2017,2018)。
綜上,前人的研究表明:復(fù)雜的構(gòu)造過(guò)程、氣候過(guò)程及生物過(guò)程共同決定了沉積物的時(shí)空分布特征;反過(guò)來(lái),沉積物的形成過(guò)程也在積極地塑造地球系統(tǒng)(Hannisdal and Peters,2010;Peters;2005;Peters,2008)。
地球上的沉積物直接蓋在變質(zhì)巖或巖漿巖等結(jié)晶基底之上,據(jù)全球各地觀察,蓋層和基底是截然接觸的,二者中間存在一個(gè)侵蝕界面,代表時(shí)間間斷,稱(chēng)為大不整合面(Great Unconformity)(Powell et al.,1875;Walcott,1914;Yochelson,2006;Karlstrom and Timmons,2012)。導(dǎo)致大不整合面形成的成因爭(zhēng)議很大,或與侵蝕基準(zhǔn)面降低或者超大陸的聚合等因素有關(guān)(Sloss,1963;Ronov et al.,1980)。近年來(lái),Macrostrat沉積物定量化工作和地球化學(xué)數(shù)據(jù)庫(kù)的建立為驗(yàn)證大不整合面成因提供了數(shù)據(jù)基礎(chǔ)。
Macrostrat定量化沉積物體積的結(jié)果顯示:在新元古代與古生代之交,沉積物體積增加了5倍之多,表明寒武紀(jì)之前大量的沉積物被侵蝕(Husson and Peters,2018;圖11)。這一時(shí)期對(duì)應(yīng)北美大不整合面的形成時(shí)期(Peters,2006;Husson and Peters,2017;Karlstrom and Timmons,2012)。前人研究發(fā)現(xiàn)該時(shí)期陸地記錄的地幔溫度梯度和構(gòu)造樣式都沒(méi)有明顯變化(Keller and Schoene,2012,2018;Condie et al.,2016;Ganne and Feng,2017),因此這種沉積響應(yīng)與構(gòu)造運(yùn)動(dòng)沒(méi)有關(guān)系。最近,Keller等(2019)通過(guò)統(tǒng)計(jì)全球巖漿弧成因的鋯石年齡、Hf和O同位素發(fā)現(xiàn):εHf(t)在大不整合后降低、δ18O在大不整合后升高,這表明新元古代沉積物從陸殼消失而沉積在深海洋盆,進(jìn)一步通過(guò)俯沖作用消減并改變了巖漿弧成分(Clift et al.,2009;Jagoutz et al.,2015)。Keller等(2019)進(jìn)一步通過(guò)模擬方法對(duì)新元古代冰川侵蝕的沉積響應(yīng)進(jìn)行了定量化處理,發(fā)現(xiàn)3.4~4.5 km的冰川侵蝕量可以再現(xiàn)顯生宙之前的侵蝕基準(zhǔn)面。這一結(jié)果表明,新元古代“雪球地球”期間的冰川快速侵蝕是北美大不整合面形成的潛在驅(qū)動(dòng)機(jī)制,同時(shí)也可能與不整合后寒武紀(jì)多細(xì)胞生命大爆發(fā)有直接或間接聯(lián)系(Peters and Gaines,2012)。
圖11 全球沉積物質(zhì)體積演化(據(jù)Keller et al.,2019改)Fig.11 The evolution of global sedimentary rock volume(Revised after Keller et al.,2019)
大數(shù)據(jù)科學(xué)的特點(diǎn)之一是沒(méi)有提前預(yù)設(shè)目標(biāo)和前提,而是讓數(shù)據(jù)“說(shuō)話”,復(fù)雜多元的大數(shù)據(jù)所顯示的內(nèi)在關(guān)聯(lián),能夠提高人類(lèi)對(duì)經(jīng)驗(yàn)世界的認(rèn)知,這些認(rèn)知往往出人意料(蘇玉娟,2019)。
例1:傳統(tǒng)上認(rèn)為疊層石的繁盛一般出現(xiàn)在生物大滅絕或生物多樣性大幅降低之后,而其衰落則與生態(tài)穩(wěn)定時(shí)期生物的持續(xù)演化和多樣性增加相關(guān)(Schubert and Bottjer,1992)。然而,近年來(lái),Peters等(2017)在利用機(jī)器閱讀技術(shù)研究北美地區(qū)疊層石的時(shí)空分布的過(guò)程中,卻得到了不一樣的結(jié)論。為了從文獻(xiàn)中智能提取疊層石數(shù)據(jù),Peters團(tuán)隊(duì)設(shè)計(jì)如下算法:在文獻(xiàn)中搜索Stromatolite(疊層石)及其衍生詞匯,對(duì)包含這些詞匯的句子及其相鄰的句子進(jìn)行自然語(yǔ)言處理,提取并記錄疊層石詞匯和巖石地層名稱(chēng)(視為潛在的產(chǎn)出疊層石的地層單元),在通過(guò)可靠性檢驗(yàn)后,將文獻(xiàn)、短語(yǔ)、地層屬性等結(jié)構(gòu)化信息反饋至用戶(hù)。通過(guò)快速分析8000余篇相關(guān)文獻(xiàn),將其中出現(xiàn)疊層石的地層統(tǒng)計(jì)并投射至Macrostrat地層庫(kù)中成圖,結(jié)果表明:疊層石的出現(xiàn)與大滅絕并沒(méi)有明顯的相關(guān)性,而與白云巖總量的增長(zhǎng)有很強(qiáng)的相關(guān)性(Peters et al.,2017)。
例2:煤炭沉積是典型的氣候敏感型沉積物,因此長(zhǎng)期以來(lái)都被作為重建古緯度的有效工具(Diessel,1992;Ziegler et al.,2003)。然而,近年來(lái),Peters等(2018)基于Macrostrat定量化的地層數(shù)據(jù)來(lái)驗(yàn)證上述問(wèn)題時(shí),得到不一樣的結(jié)果。Peters團(tuán)隊(duì)利用Macrostrat中全部包含煤炭沉積物豐度的相關(guān)數(shù)據(jù),并使用Matlab內(nèi)置函數(shù)將豐度量投射到時(shí)間序列之上;同時(shí)利用Gplates模擬煤炭沉積物的緯度分布,由此獲得北美地區(qū)煤炭沉積物豐度隨時(shí)間變化序列和煤炭沉積物的古緯度分布序列。結(jié)果表明:煤炭沉積物的古緯度分布在二疊紀(jì)初期明顯向高緯度移動(dòng);二疊紀(jì)之后,煤的分布也并非恒定不變,其豐度和緯度都存在一定范圍的波動(dòng)。因此,Peters等(2018)認(rèn)為用煤炭沉積物重建古緯度時(shí),其可靠程度有待進(jìn)一步的驗(yàn)證。
例3:通常認(rèn)為沉積物通量對(duì)海平面的變化具有重要影響,反過(guò)來(lái),海平面變化決定了進(jìn)入沉積盆地的沉積物通量,進(jìn)而控制了海相沉積物的總量(Ginsburg,1982;Phillips and Slattery,2006;Ferrier et al.,2015,2019)。然而,近年來(lái),Peters團(tuán)隊(duì)通過(guò)大數(shù)據(jù)的整合分析發(fā)現(xiàn):海平面對(duì)海相沉積物總量的控制不是通過(guò)沉積物通量的變化,而是與海平面變化導(dǎo)致的大陸洪泛面積的變化更為密切(圖12;Peters,2008;Peters and Husson,2017)。令人更難以置信的是,大數(shù)據(jù)分析表明大陸洪泛可以預(yù)測(cè)海洋生物的宏演化史(圖12;Peters,2008),它們之間的相互關(guān)系表明:大陸洪泛面積可以作為一共同機(jī)制同時(shí)驅(qū)動(dòng)海相沉積物演化和生物宏演化(Hannisdal and Peters,2011)。
圖12 沉積物—生物種屬—海平面顯生宙變化圖(據(jù)Hannisdal and Peters,2011改)Fig.12 Sediments,genera and sea level co-variation during the Phanerozoic(Revised after Hannisda and Peters,2011)
隨著地球科學(xué)的發(fā)展、沉積學(xué)及相關(guān)數(shù)據(jù)快速增長(zhǎng),世界范圍內(nèi)涌現(xiàn)出一大批優(yōu)秀的沉積數(shù)據(jù)庫(kù)。早期的數(shù)據(jù)庫(kù)以若干具體的科學(xué)問(wèn)題為核心驅(qū)動(dòng),其建設(shè)、運(yùn)營(yíng)多依賴(lài)于少數(shù)科學(xué)家團(tuán)隊(duì),盡管特點(diǎn)鮮明、專(zhuān)業(yè)性強(qiáng),但是缺乏能動(dòng)性和可持續(xù)性,并且在數(shù)據(jù)共享方面存在不足。Macrostrat數(shù)據(jù)庫(kù)是一個(gè)以巖石時(shí)空分布定量化為核心任務(wù)的跨學(xué)科數(shù)據(jù)平臺(tái),實(shí)現(xiàn)了在統(tǒng)一時(shí)空框架下對(duì)海量巖石、地層、生物資料的系統(tǒng)整合和定量分析,為深刻理解深時(shí)生命演化、地球物質(zhì)循環(huán)、地質(zhì)事件、古地理變遷、氣候變化等提供了關(guān)鍵信息。然而,Macrostrat數(shù)據(jù)庫(kù)所產(chǎn)生的結(jié)論都源于其數(shù)據(jù)所覆蓋的地理區(qū)域,這些結(jié)論放在全球尺度是否成立還需檢驗(yàn)。另外,Macrostrat數(shù)據(jù)庫(kù)的核心數(shù)據(jù)基礎(chǔ)是北美地層柱(Column)及其地層對(duì)比表。在高密度地層柱缺乏的世界其他地區(qū)如何開(kāi)展此項(xiàng)工作是一個(gè)極大的挑戰(zhàn)。
深時(shí)數(shù)字地球(DDE)計(jì)劃建設(shè)開(kāi)放、共享、統(tǒng)一的大數(shù)據(jù)平臺(tái),將提供從全球尺度解決重大科學(xué)問(wèn)題的契機(jī)。通過(guò)對(duì)沉積學(xué)領(lǐng)域內(nèi)大數(shù)據(jù)整合和應(yīng)用的深度調(diào)研,建議DDE大數(shù)據(jù)平臺(tái)的沉積板塊應(yīng)當(dāng)圍繞沉積學(xué)的重大科學(xué)問(wèn)題,有的放矢地進(jìn)行數(shù)據(jù)的整合、分析、挖掘并進(jìn)行預(yù)測(cè);建立統(tǒng)一的時(shí)空框架和數(shù)據(jù)管理規(guī)則,高效整合復(fù)雜多元的沉積學(xué)數(shù)據(jù);積極開(kāi)發(fā)文本、圖表信息挖掘技術(shù),實(shí)現(xiàn)更加高效的機(jī)器閱讀技術(shù)體系。
致謝:感謝評(píng)審人提出的細(xì)致而富有建設(shè)性的意見(jiàn)。