齊 浩,董少春*,張麗麗,胡 歡,樊雋軒
1.南京大學地球科學與工程學院,南京210023;2.中國科學院計算機網(wǎng)絡(luò)信息中心,北京100190
經(jīng)過不斷的積累和持續(xù)建設(shè),地球科學大數(shù)據(jù)已具備相當?shù)囊?guī)模,形成了種類繁多、內(nèi)容豐富、覆蓋面廣的各類結(jié)構(gòu)化專題數(shù)據(jù)庫和龐大的非結(jié)構(gòu)化文獻資料庫,在數(shù)據(jù)共享、交流和應(yīng)用中發(fā)揮重要作用,為深入開展地球科學研究奠定堅實的數(shù)據(jù)基礎(chǔ)。地球科學大數(shù)據(jù)除了具有數(shù)據(jù)量大(Volume)、類型繁多(Variety)、處理速度快 (Velocity)、真實性(Veracity)和數(shù)據(jù)價值(Value)等5V特性之外(程學旗等,2014;李學龍和龔海剛,2015),還有高時空性、高度可視化、高相關(guān)性和高(多)維度等特征(郭華東等,2014;董少春等,2019)。數(shù)據(jù)的爆發(fā)式增長,改變了地球科學的傳統(tǒng)研究方式,為地球科學領(lǐng)域帶來新的機遇和挑戰(zhàn)。但是,由于缺乏統(tǒng)一的描述規(guī)范、共享機制不明、語義異構(gòu)現(xiàn)象顯著等問題,使得多源異構(gòu)的地球科學大數(shù)據(jù)在數(shù)據(jù)共享、融合和復用等方面存在諸多困難,限制了數(shù)據(jù)的大規(guī)模集成和深層次應(yīng)用。
知識圖譜(Knowledge Graph)最初的概念和雛形可以追溯到20世紀60年代,是隨著語義網(wǎng)的出現(xiàn)不斷發(fā)展成熟起來的,現(xiàn)在大家廣泛認可的概念是谷歌于2012年提出的(Amit,2012)。知識圖譜旨在提高搜索引擎的能力,增強用戶的搜索質(zhì)量和搜索體驗,在智能檢索、機器回答等領(lǐng)域已經(jīng)得到了廣泛應(yīng)用。知識圖譜通過圖的方式揭示客觀世界中的事物及其相互之間的關(guān)系,并進行形式化的描述,形成可以被人和機器理解的大規(guī)模知識庫(曹倩等,2015;徐增林等,2016;黃恒琪等,2019),是實現(xiàn)語義翻譯和數(shù)據(jù)融合的關(guān)鍵技術(shù)之一。因此,為整合全球地球演化數(shù)據(jù),共享全球地學知識,推動地球科學研究范式的變革,有必要引入知識圖譜的概念和思路,建立地球科學知識圖譜,消除地球科學數(shù)據(jù)的語義異構(gòu)瓶頸,充分挖掘地球科學數(shù)據(jù)的價值,推動大數(shù)據(jù)驅(qū)動下的知識發(fā)現(xiàn),真正實現(xiàn)數(shù)據(jù)共享、復用和融合,深化地球科學基礎(chǔ)研究和應(yīng)用研究的發(fā)展。
本文對地球科學知識圖譜的內(nèi)涵、特點以及構(gòu)建方法進行了全面的梳理,對地球科學知識圖譜的應(yīng)用進行了分析?;仡櫫伺c地球科學知識圖譜建設(shè)有關(guān)的專題數(shù)據(jù)庫和領(lǐng)域本體的國內(nèi)外建設(shè)現(xiàn)狀,對知識圖譜建構(gòu)中存在的問題進行了總結(jié),以期對推動和完善地球科學知識圖譜的建設(shè)工作和應(yīng)用提供幫助。
地球科學知識圖譜是對地球科學知識的全面梳理。它以科學家共同認可的知識體系為基礎(chǔ),利用標準化編碼對地球科學領(lǐng)域內(nèi)的所有知識點(包括基本概念、對象、現(xiàn)象、過程、標準、方法等)以及這些知識點之間的相互關(guān)系進行清晰、明確的闡釋,并為區(qū)分各種類型的對象以及它們之間的聯(lián)系提供標準,形成可以為機器所理解的地球科學知識庫,具有靈活多樣的可視化方式,為機器學習提供了語義翻譯的基礎(chǔ),是跨領(lǐng)域數(shù)據(jù)融合和數(shù)據(jù)挖掘的基礎(chǔ)。
地球科學知識圖譜的特點主要體現(xiàn)在以下三個方面。
1.1.1 準確、清晰的知識表達
地球科學知識圖譜包含對知識及其相互關(guān)系的全面、清晰、明確的描述,而且采用國際標準化的編碼對知識及其相互關(guān)系進行形式化的表達,具有科學性、系統(tǒng)性和規(guī)范性,提供與其他描述規(guī)范進行互操作的基礎(chǔ)。知識圖譜的架構(gòu)具有開放性的特點,便于修改和擴充,能夠在不同層面上滿足對地球科學知識的需求,是進行科普、教學和科研的知識庫,是領(lǐng)域科學家進行學術(shù)交流的通用語言和基石,更是計算機可理解的數(shù)字化、結(jié)構(gòu)化的知識體系。
1.1.2 豐富的語義表達能力
地球科學知識圖譜充分表達了知識點之間的對等關(guān)系(例如同義詞等)、包含關(guān)系(或稱為從屬關(guān)系)、繼承關(guān)系、實例關(guān)系和屬性歸屬關(guān)系等豐富的語義信息,可非常清晰和方便的表示為層次化或網(wǎng)狀化的知識體系。
1.1.3 語義推理能力
除了充分表達知識點之間豐富的原生語義關(guān)系以外,知識圖譜還具有強大的推理能力,能夠從原生知識關(guān)聯(lián)中通過推理產(chǎn)生新的知識,即可將隱性知識顯性化,從而為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)提供語義推理服務(wù)。
地球科學知識圖譜提供了地球科學領(lǐng)域內(nèi)最全面的知識體系和內(nèi)容,可以應(yīng)用于多樣化的知識展示,滿足不同層面知識獲取、智能檢索和智能回答、機器學習等方面的需求。
1.2.1 為不同層次的用戶提供多樣化知識展示
在知識圖譜的構(gòu)建過程中,知識體系的規(guī)范化描述和存儲與顯示方式是分離的。這就使得知識圖譜的展示方式具有高度靈活性和多樣性,可以根據(jù)不同層次不同需求的用戶定制不同的顯示樣式,滿足不同場景的需求。知識圖譜的“圖”更多的是強調(diào)知識點相互之間關(guān)系的表達,而并非特指其呈現(xiàn)方式只局限于“圖”的形式。例如:(1)可以按照知識點的英文名稱/中文名稱的音序或者首字母進行排序,形成在線地球科學術(shù)語的數(shù)據(jù)字典,隨時進行瀏覽和查詢,為專業(yè)人士或非專業(yè)人士提供術(shù)語解釋等(圖1)。(2)可以按照學科分類的方式以目錄樹的形式進行展示,類似教科書的方式,滿足系統(tǒng)學習地球科學知識的需求,為高等院校專業(yè)學生提供豐富的教學資源庫(圖2)。(3)可以方便的生成百科全書的樣式,在知識點的描述中建立超鏈接,使得知識的展現(xiàn)方式不再是線性的而是網(wǎng)狀的,利用層層開啟的方式全面展示地球科學的內(nèi)容,為公眾普及地球科學知識提供學習途徑,類似于維基百科的展示方式(圖3)。(4)知識圖譜還可以方便的導出成多種格式,例如:RDF格式,excel格式,文本格式或圖的格式等,滿足離線學習的需求。
圖1 數(shù)據(jù)字典展示方式示意圖Fig.1 Data dictionary style of knowledge graph presentation
圖2 目錄樹展示方式示意圖Fig.2 Catalogue style of knowledge graph presentation
1.2.2 實現(xiàn)語義翻譯,為用戶提供智能檢索和智能回答服務(wù)
傳統(tǒng)的數(shù)據(jù)檢索機制都是基于關(guān)鍵字的語法匹配和全文檢索技術(shù),主要借助于目錄、索引和關(guān)鍵詞等方法實現(xiàn),而多源異構(gòu)數(shù)據(jù)之間隱含的各種聯(lián)系需要通過語義翻譯才能體現(xiàn)。由于知識圖譜利用規(guī)范的形式化語言詮釋了地球科學領(lǐng)域內(nèi)的概念和關(guān)系,因此可以根據(jù)知識圖譜對檢索請求或提問進行翻譯,通過邏輯推理規(guī)則,挖掘隱含語義聯(lián)系,從而實現(xiàn)語義翻譯的功能。用戶的檢索請求或基于自然語言的提問可以通過語義翻譯映射到知識圖譜的某一個或幾個節(jié)點上,使得機器能夠解析出用戶問題關(guān)鍵詞的上下文語義關(guān)系,建立數(shù)據(jù)請求與基本數(shù)據(jù)集之間的映射關(guān)系,從而進行語義推理,獲取最相關(guān)的信息,組成最符合用戶需求的回答或檢索結(jié)果集。
1.2.3 為多源異構(gòu)數(shù)據(jù)庫之間提供語義互聯(lián)互通的服務(wù),實現(xiàn)數(shù)據(jù)融合
圖3 百科全書式的展示方式(來自維基百科)Fig.3 Encyclopedia style of knowledge graph presentation(from Wikipedia)
地球科學大數(shù)據(jù)經(jīng)過幾十年的積累,已經(jīng)形成了龐大的多源、異構(gòu)的專題數(shù)據(jù)庫。由于缺乏統(tǒng)一的建庫標準,難免存在不同數(shù)據(jù)集利用不同的標識符表達相同概念,或者相同的標識符表達不同概念的情況。知識圖譜可以幫助應(yīng)用系統(tǒng)在不同數(shù)據(jù)集之間建立聯(lián)系,識別同義異名、同名異義、包含關(guān)系、部分與整體的關(guān)系等語義聯(lián)系,使得異構(gòu)、多源地球科學數(shù)據(jù)之間的隱性知識顯性化,使不同數(shù)據(jù)集之間的各種聯(lián)系能夠為應(yīng)用系統(tǒng)所識別。在數(shù)據(jù)獲取、交換以及融合過程中可以利用知識圖譜進行語義翻譯預(yù)處理,達到消除語義瓶頸、解決語義異構(gòu)的目的,使得異構(gòu)數(shù)據(jù)的訪問、獲取、解釋和復用成為現(xiàn)實,讓機器理解不同數(shù)據(jù)集的內(nèi)在含義,幫助機器進行學習,從而在人與機器以及機器與機器之間達成領(lǐng)域知識共享,為數(shù)據(jù)融合和數(shù)據(jù)挖掘提供基礎(chǔ)。
1.2.4 為新數(shù)據(jù)庫的建設(shè)提供標準,規(guī)范數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)字典
對于新建設(shè)的數(shù)據(jù)庫,可以根據(jù)知識圖譜在數(shù)據(jù)庫需求分析、概念模式和應(yīng)用模式等不同環(huán)節(jié)建立起統(tǒng)一、科學、規(guī)范的標準,避免或減少新建數(shù)據(jù)庫之間的語義異構(gòu)問題,使得機器能夠更加高效、智能的收集、處理和分析數(shù)據(jù)。
1.2.5 為知識發(fā)現(xiàn)提供推理規(guī)則
知識圖譜不僅包含對原生知識體系的全面描述,同時也具備進行推理,產(chǎn)生新知識的能力?;谥R圖譜的推理規(guī)則集和人工智能技術(shù),應(yīng)用系統(tǒng)能夠根據(jù)其豐富的語義關(guān)系進行推理和演算,從大數(shù)據(jù)集中挖掘出新的規(guī)律和特征,為科學家認識地球提供新的視角和思路。
知識圖譜的建立主要通過自動抽取技術(shù),從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中抽取出實體或概念,分析這些實體或概念之間的聯(lián)系,以形式化的語言描述相互之間的語義關(guān)系,并以圖的方式進行表達,形成某一領(lǐng)域的知識圖譜(漆桂林等,2017;邊慧珍和哈斯,2018;王穎等,2019)。這種方式能夠充分利用大數(shù)據(jù)的特點,從大規(guī)模自然語言描述的文獻庫和結(jié)構(gòu)化存儲的關(guān)系型數(shù)據(jù)庫中抽取出不同的知識點,形成數(shù)據(jù)字典,通過上下文分析這些知識點之間的聯(lián)系,利用標準化的編碼描述知識點和他們之間的關(guān)系,建立數(shù)字化的知識體系,具有建構(gòu)速度快、自動化程度高、人工參與少的特點。為了確保準確、高效地自動抽取重要概念和對象,建立和表達概念間的關(guān)系,很多關(guān)鍵技術(shù),如自動分詞、知識提取、語義相似度計算、本體構(gòu)建等都被應(yīng)用于知識圖譜的構(gòu)建中(劉嶠等,2016;李濤等,2017;朱月琴等,2017;王穎等,2019),并不斷發(fā)展成熟起來。這種方法常見于快速建構(gòu)知識內(nèi)容體量較小的知識圖譜,如某一本書或某個朝代的人物關(guān)系圖(Bonato et al.,2016;楊海慈和王軍,2019),某種疾病的知識圖譜(王淑斌,2014)以及礦產(chǎn)資源知識圖譜(朱月琴等,2017)等。
對于門類齊全、覆蓋面廣、知識點眾多的地球科學知識圖譜來說,通過自動提取方式建立的知識體系難以保證知識的準確性、系統(tǒng)性和完整性,無法全面、清晰的表達地球科學領(lǐng)域的全部內(nèi)容及相互關(guān)系,需要系統(tǒng)、完整的地球科學知識體系作為基礎(chǔ)進行地球科學知識圖譜建設(shè)。知識體系不僅要覆蓋該學科領(lǐng)域內(nèi)所有重要的基本概念或?qū)ο螅ɑ蚍Q為知識點),而且要對這些概念或基本對象之間的關(guān)系(包含關(guān)系/從屬關(guān)系、對等關(guān)系、引用關(guān)系/調(diào)用關(guān)系)進行描述。因此,要建立地球科學領(lǐng)域系統(tǒng)性、全面性、科學性的知識圖譜,現(xiàn)階段只能通過專家人工建設(shè)的方式進行,但是在由專家主導和控制的建設(shè)過程中可以使用一些自動和半自動的數(shù)據(jù)處理技術(shù)。
溫針灸治療能夠起到運行氣血、調(diào)節(jié)機體活動和協(xié)調(diào)內(nèi)部陰陽的功效,艾灸能夠?qū)Ω鞣N寒證、痛癥等氣血痹阻病癥起到扶住陽氣的作用,具有十分肯定的治療優(yōu)越性;刺絡(luò)放血可以對表淺靜脈直接刺入,讓淤血即刻放出,有利于對血管舒張活動進行調(diào)節(jié),可以促進局部的血流運行情況,進而達到臨床治療的應(yīng)用目的[3-4]。
由專家建立的知識體系可以認為是原生知識體系,以自然語言進行描述,具有系統(tǒng)性、科學性和嚴謹性的特點,是科學家進行專業(yè)交流的通用語言,也是知識圖譜構(gòu)建的核心內(nèi)容,但是無法為機器所識別,因此必須進行建模后才能成為可以被機器理解的知識體系。本體是共享概念模型的顯式說明,描述概念與概念之間的關(guān)系,是語義Web的關(guān)鍵技術(shù)之一(Gruber,1993;Guarino,1998;Studer,2008;黃恒琪等,2019)。本體可以清晰的表達基本概念,揭示基本概念之間豐富的關(guān)系,闡明復雜的語義,建立以“概念-關(guān)系”為中心的信息描述框架。本體建模語言具有機器可理解、可處理、可擴展等諸多優(yōu)點,可以作為在特定領(lǐng)域內(nèi)有效表現(xiàn)概念層次結(jié)構(gòu)和相互關(guān)系的模型(李曼等,2005;汪方勝等,2005;楊俊柯等,2005),能夠促進該領(lǐng)域內(nèi)不同主體(人、機器、軟件系統(tǒng)等)之間的語義交流(對話、互操作、共享等)(杜小勇等,2004)。因此,通過本體建模語言,例如Simple Knowledge Organization System (SKOS)、Resource Description Framework(RDF)、Web Ontology Language(OWL)等,將科學家進行交流的自然語言(知識體系)轉(zhuǎn)化為機器可以交流的形式化語言(知識圖譜),是構(gòu)建地球科學知識圖譜的關(guān)鍵步驟。
在專家建立的知識體系的基礎(chǔ)上,遵循W3C和相關(guān)地學國際標準,利用標準規(guī)范的本體建模語言將由自然語言表達的知識體系描述為機器可理解、可操作的地球科學領(lǐng)域本體,最終實現(xiàn)地球科學知識圖譜的構(gòu)建。為了方便知識體系向知識圖譜的轉(zhuǎn)變,在進行知識體系描述的時候需要遵循知識點盡量最小化、知識網(wǎng)絡(luò)覆蓋全面化、語義關(guān)系盡量明確化、質(zhì)量評價盡量標準化的原則。通過這種方式建立的知識圖譜不僅體現(xiàn)了最完整、最系統(tǒng)、最科學的知識體系,同時由于知識體系對語義關(guān)系進行了詳細、清晰的表達,因此也具備從原生知識體系中通過推理獲得新知識的能力。此外,知識圖譜的知識體系不是封閉的,而是具有開放性、互連接的知識體系,可以隨著認識的不斷演進進行更新和維護。
此外,由于地球科學知識圖譜對地球科學不同分支的專業(yè)詞匯(基本概念或?qū)ο螅┻M行了系統(tǒng)性、科學性的梳理,形成了機器可理解的領(lǐng)域本體,因此可以很方便地自動抽取并建立內(nèi)容完整、覆蓋面齊全的地球科學數(shù)據(jù)字典。
圖4 數(shù)據(jù)字典、知識體系與知識圖譜關(guān)系示意圖Fig.4 Relationships of data dictionary,knowledge system and knowledge graph
圖4闡述了自動構(gòu)建和人工構(gòu)建兩種方式下數(shù)據(jù)字典、知識體系和知識圖譜之間的關(guān)系。從中可以總結(jié)出以下幾點:(1)數(shù)據(jù)字典只包含知識點(概念或?qū)ο螅?,可方便為專業(yè)人士和非專業(yè)人士提供術(shù)語解釋的服務(wù),但不包含相互之間的語義關(guān)系(例如概念之間的包含關(guān)系,對等關(guān)系,屬性之間的傳遞關(guān)系,推理等),因此無法進行語義翻譯和推理,不能被機器所理解。(2)知識體系強調(diào)覆蓋某一領(lǐng)域內(nèi)全部的知識點,既包含概念或?qū)ο蟮拿枋?,也包括概念間相互關(guān)系的描述。因此可以進行語義翻譯,但知識體系的描述形式?jīng)]有特定的要求,通常是科學家用自然語言進行描述,因此無法為機器所理解。(3)知識圖譜以知識體系為基礎(chǔ),采用本體建模語言進行編碼,以本體為表現(xiàn)方式,形成機器可理解的模式,是機器進行語義翻譯和基于語義的數(shù)據(jù)融合的基礎(chǔ)。
由此可見,知識圖譜不僅僅是一張圖譜,而是涵蓋了完整的知識體系、具有形式化和規(guī)范化的知識表達,能夠揭示豐富的語義內(nèi)涵,為機器和人共同理解,在人與機器以及機器與機器之間達成知識共享,并提供靈活多樣的可視化方式,服務(wù)于不同需求的用戶。因此地球科學知識圖譜的構(gòu)建實際上是一項系統(tǒng)知識工程。
地球科學知識圖譜是一個新的概念,還沒有形成成熟的建設(shè)規(guī)范和標準體系。國內(nèi)外目前并沒有完整的地球科學知識圖譜的建設(shè)先例。但是與知識圖譜建設(shè)密切相關(guān)的地球科學專題數(shù)據(jù)庫和地球科學領(lǐng)域本體都已經(jīng)積累了相當長時間,這里主要回顧了地球科學專題數(shù)據(jù)庫和領(lǐng)域本體建設(shè)的國內(nèi)外現(xiàn)狀,作為地球科學知識圖譜建立的基礎(chǔ)和參考。
經(jīng)過幾十年的不斷建設(shè),目前國際上已建成了很多以數(shù)據(jù)為中心的地球科學專業(yè)數(shù)據(jù)庫,包括綜合性的數(shù)據(jù)中心,也包括具體學科領(lǐng)域的專題數(shù)據(jù)庫(參見本專輯其他文章的介紹)。綜合性的數(shù)據(jù)中心主要以各國地質(zhì)調(diào)查局、國家級研究/信息中心為建設(shè)主體,數(shù)據(jù)覆蓋面廣,數(shù)據(jù)量大。例如美國地質(zhì)調(diào)查局(USGS,https://www.usgs.gov/)收集并共享了各類地質(zhì)、環(huán)境、資源、災(zāi)害相關(guān)的數(shù)據(jù)資料,提供數(shù)據(jù)分類查詢、元數(shù)據(jù)描述、數(shù)據(jù)下載以及在線數(shù)據(jù)瀏覽等服務(wù)。美國國家環(huán)境信息中心(NCEI,https://www.ngdc.noaa.gov/)主要提供海洋測深、地球空間觀測、古地磁、海洋地球物理(重、磁、地震)、自然災(zāi)害等數(shù)據(jù),支持數(shù)據(jù)在線瀏覽、數(shù)據(jù)下載及數(shù)據(jù)成圖等功能。英國地質(zhì)調(diào)查局(BGS,http://www.bgs.ac.uk/)主要提供本國地質(zhì)、鉆孔、地磁、地下水、巖石等數(shù)據(jù)和資料,支持數(shù)據(jù)的在線瀏覽和數(shù)據(jù)下載,且提供專門的應(yīng)用程序來實現(xiàn)數(shù)據(jù)的可視化。德國地球科學研究中心(GFZ,https://www.gfz-potsdam.de/startseite/)提供地球化學、測量學、地質(zhì)學、地磁學、地球物理、水文地質(zhì)、古生物等地球科學各個領(lǐng)域的信息,用戶可根據(jù)學科進行數(shù)據(jù)檢索。加拿大地質(zhì)調(diào)查局(GSC,https://www.nrcan.gc.ca/)存儲和管理礦產(chǎn)資源、地球化學、地質(zhì)、地熱、地下水、巖石、土地測量等不同門類的數(shù)據(jù)資料,提供數(shù)據(jù)的在線瀏覽和下載服務(wù)。中國地質(zhì)科學院地質(zhì)科學數(shù)據(jù)共享網(wǎng)(http://www.geoscience.cn/)整合了中國基礎(chǔ)地質(zhì)、礦產(chǎn)地質(zhì)、構(gòu)造地質(zhì)、物化探地質(zhì)、水文地質(zhì)、巖溶地質(zhì)、巖礦測試以及環(huán)境地質(zhì)數(shù)據(jù),為國家和社會公眾提供地質(zhì)基礎(chǔ)數(shù)據(jù)服務(wù)。
各專業(yè)領(lǐng)域的專題數(shù)據(jù)庫建設(shè)也具備了相當大的規(guī)模和影響力。例如美國地層學數(shù)據(jù)庫(Macrostrat,https://macrostrat.org/) 以發(fā)育相同沉積格架的區(qū)域作為基本單位數(shù)據(jù),目前數(shù)據(jù)覆蓋北美、南美局部、新西蘭等地區(qū),內(nèi)容包括巖性、沉積相、古生物和巖石地層單位數(shù)據(jù)等。古生物學數(shù)據(jù)庫(PBDB,https://paleobiodb.org/)提供化石收集記錄、生物化石信息、已發(fā)表的參考文獻、類群分類信息、地層單位以及古地理位置信息等。古生物學和地層學專業(yè)數(shù)據(jù)庫(GBDB,http://www.geobiodiversity.com/)收集生物地層學和巖石地層學數(shù)據(jù),以剖面為基本單位,支持多種定量地層學方法的后續(xù)分析,剖面數(shù)量大,分布廣,提供數(shù)據(jù)在線瀏覽和共享下載服務(wù)。沉積巖數(shù) 據(jù) 庫 (SedDB, http://www.earthchem.org/seddb)整合全球沉積巖石地球化學數(shù)據(jù)。磁學信息聯(lián)盟數(shù) 據(jù) 庫 (MagIC, https://www2.earthref.org/MagIC)提供不同時期的古地磁和巖石地磁數(shù)據(jù)。全球火成巖數(shù)據(jù)庫(GEOROC,http://georoc.mpch-mainz.gwdg.de/georoc/)收集發(fā)表的巖漿巖數(shù)據(jù)(火山巖、侵入巖、地幔包體),包括主量、微量元素、放射性和非放射性同位素,以及全巖、玻璃、礦物和包裹體的年齡分析數(shù)據(jù)等,元數(shù)據(jù)包括經(jīng)緯度、巖石分類和巖性、蝕變程度、分析方法、實驗室和參考文獻等。全球海底巖石學數(shù)據(jù)庫(PetDB,https://search.earthchem.org/)收集全球海底巖漿巖、變質(zhì)巖、礦物和包裹體等的元素化學數(shù)據(jù)、同位素數(shù)據(jù)和礦物學數(shù)據(jù)。全球地質(zhì)年代學數(shù)據(jù)庫(GeoChron,http://www.geochron.org/)收集全球巖漿巖、變質(zhì)巖和沉積巖碎屑礦物年代學數(shù)據(jù),年齡數(shù)據(jù)信息齊全,可視化強。全球重力場數(shù)據(jù) 庫(BGI,http://bgi.omp.obs-mip.fr/data-products/Gravity-Databases)提供陸地重力數(shù)據(jù)、海洋重力數(shù)據(jù)、重力參考臺以及絕對重力數(shù)據(jù)。全球地下水信息系統(tǒng)(GGIS,https://www.un-igrac.org/globalgroundwater-information-system-ggis)提供全球地下水信息,包含跨界含水層、地下水應(yīng)力、地下水水質(zhì)及地下水資源信息,用戶可根據(jù)國家或區(qū)域進行數(shù)據(jù)檢索。國際開源拉曼光譜數(shù)據(jù)庫(RRUFF,http://rruff.info/)提供5477種國際礦物學會(IMA)認可礦物的光譜數(shù)據(jù),支持全球范圍內(nèi)的數(shù)據(jù)共享。全球地質(zhì)圖數(shù)據(jù)庫(OneGeology,http://www.onegeology.org/)提供全球范圍內(nèi)地質(zhì)圖網(wǎng)絡(luò)數(shù)據(jù)服務(wù),用戶可自主選擇需要在地質(zhì)圖上疊加的專題數(shù)據(jù)(例如地質(zhì)、地熱、地磁、地球物理、巖石、礦物、構(gòu)造、年代地層、地質(zhì)災(zāi)害及海洋觀測等),支持元數(shù)據(jù)查看和數(shù)據(jù)共享下載。全球熱流數(shù)據(jù)庫(GHFD,http://www.heatflow.org/)提供全球熱流數(shù)據(jù),用戶可根據(jù)國家進行數(shù)據(jù)檢索。此外還有北美火山和侵入巖石數(shù)據(jù)庫(NAVDAT,http://www.navdat.org/)、澳大利亞地層單位數(shù)據(jù)庫(ASUD,https://asud.ga.gov.au/)、古生物數(shù)據(jù)庫(Fossilworks,http://fossilworks.org/)、中國地球物理科學數(shù)據(jù)中心(http://geospace.geodata.cn/)等地球科學專題數(shù)據(jù)庫。
此外,還有大量的數(shù)據(jù)以表格或其他表現(xiàn)形式發(fā)表于地球科學期刊論文中,也形成了龐大的專題數(shù)據(jù)集,但是由于這類數(shù)據(jù)需要從論文的文字、表格和圖片中進行提取,無法直接使用,因此在數(shù)據(jù)共享、集成和復用方面存在較大困難。
為解決數(shù)據(jù)語義異構(gòu)問題,實現(xiàn)地球科學數(shù)據(jù)的智能化查詢、共享與管理,國內(nèi)外積極開展地球科學領(lǐng)域本體的研究。早在21世紀初,美國地質(zhì)調(diào)查局(USGS)、弗吉尼亞理工學院、圣地亞哥超級計算中心等十多家科研機構(gòu)、高等院校參與的GEON(Geoscience Network)就在元素和同位素、巖石學以及地質(zhì)環(huán)境等方面建立了專門的本體 (Seber et al.,2003; Raskin and Pan,2005;Sinha,2006b),用于協(xié)調(diào)異構(gòu)地質(zhì)圖的概念模式,解決不同地質(zhì)圖的內(nèi)容異構(gòu)問題?;诒倔w中數(shù)據(jù)項與術(shù)語之間的映射實現(xiàn)了數(shù)據(jù)的自動化集成(Ludascher et al.,2003;Baru et al.,2009;Ma et al.,2012),并在專題地圖的Web語義集成(Lin and Ludascher,2003)等方面取得了一定的進展。地球科學信息管理和應(yīng)用委員會(CGI)主導了基于GML的GeoSciML和EarthResourceML數(shù)據(jù)交換規(guī)范,即從基礎(chǔ)地圖數(shù)據(jù)到復雜關(guān)系地質(zhì)數(shù)據(jù)庫的地質(zhì)數(shù)據(jù)模型和數(shù)據(jù)傳輸標準,建立了地球科學專業(yè)術(shù)語庫。中國地質(zhì)調(diào)查局還專門為此翻譯出版了中文版本,并發(fā)布于CGI的官方網(wǎng)站上(http://www.geosciml.org/)。加利福利亞大學圣地亞哥分校對其負責的MMI項目(Marine Metadata Interoperability)進行了海洋本體的開發(fā)(Graybeal et al.,2005),用戶可使用基于語義Web的查詢機制查找本體概念和相關(guān)注釋,進行語義映射,增強數(shù)據(jù)的互操作性,實現(xiàn)海洋元數(shù)據(jù)的科學管理和共享(Rueda et al.,2009;Graybeal et al.,2012)。聯(lián)合國糧食及農(nóng)業(yè)組織(FAO)和歐洲共同體委員會(CEC)聯(lián)合編制了多語種農(nóng)業(yè)敘詞表AGROVOC,涵蓋糧食、農(nóng)業(yè)、林業(yè)、漁業(yè)和其他相關(guān)領(lǐng)域(Rajbhandari and Keizer,2012),基于AGROVOC可將信息標引標準化,提高查全率和查準率,實現(xiàn)多語種檢索和智能化檢索。美國地質(zhì)調(diào)查局(USGS)、加拿大地質(zhì)調(diào)查局(GSC)、聯(lián)邦地理數(shù)據(jù)委員會(FGDC)和地球科學信息管理和應(yīng)用委員會(CGI)共同負責的NGMDB(NationalGeological Map Database)受控詞表的開發(fā)(Richard et al.,2003;Soller et al.,2005),旨在使用統(tǒng)一的描述性術(shù)語或科學語言,以一致的數(shù)據(jù)結(jié)構(gòu)為全球用戶提供地質(zhì)數(shù)據(jù)(Soller and Berg,2005)。國內(nèi)學者在石油地質(zhì)本體(潘懋等,2014)、地質(zhì)災(zāi)害本體(王艷妮和劉剛,2011)、海洋生態(tài)領(lǐng)域本體(熊晶等,2012)、礦床領(lǐng)域本體(姚健鵬等,2017)等方面也進行了相關(guān)研究,建立了一批領(lǐng)域本體。
特別值得一提的是,由美國宇航局地球科學技術(shù)辦公室(NASA Earth Science Technology Office)主導,大量志愿者參與建設(shè)的SWEET本體(Semantic Web for Earth and Environmental Terminology)是目前規(guī)模最大的地球科學本體,它基本涵蓋了地球系統(tǒng)科學的主要研究范疇,包括7000多個基本概念。但該本體只定義了整體概念框架,沒有對具體概念及其相互關(guān)系進行詳細的語義描述。
此外,作為地球科學研究基礎(chǔ)的地質(zhì)時間領(lǐng)域本體的構(gòu)建也得到了國內(nèi)外學者的廣泛關(guān)注。Cox和Richard(2005)建立了地質(zhì)年代本體GTS(Geologic Time Scale)。Ma等(2012)在此基礎(chǔ)上構(gòu)建了基于SKOS的地質(zhì)時間本體,并利用flash動畫實現(xiàn)了GTS本體的可視化,用于在地質(zhì)圖中標注地質(zhì)年代信息。董少春等(2010)提出了地質(zhì)年代本體構(gòu)建的編碼表達,闡述了本體與關(guān)聯(lián)數(shù)據(jù)庫之間的映射原理,并探討了地質(zhì)年代本體在異構(gòu)數(shù)據(jù)檢索中的應(yīng)用;侯志偉等(2015)根據(jù)地學數(shù)據(jù)中的時間概念及其特征進行時間本體建模,分析了時間拓撲關(guān)系與時態(tài)信息的確定與表達,并將時間本體應(yīng)用于地學數(shù)據(jù)檢索中,結(jié)果表明地學數(shù)據(jù)時間本體能夠明顯優(yōu)化數(shù)據(jù)檢索質(zhì)量,在此基礎(chǔ)上侯志偉等(2018)提出將中國地質(zhì)年代與地層概念相結(jié)合構(gòu)建地質(zhì)年代本體,不僅能夠為用戶提供多樣化的知識查詢服務(wù),且能夠更好的解決檢索中存在的語義異構(gòu)問題。
地球科學領(lǐng)域本體的建設(shè)為解決數(shù)據(jù)語義異構(gòu)、利用率低、共享困難、檢索效率低等問題奠定了堅實的基礎(chǔ)。但目前還沒有一個完整覆蓋整個地球科學領(lǐng)域的本體,無法系統(tǒng)、完整、清晰地表達地球科學領(lǐng)域內(nèi)全部基本概念及其相互關(guān)系,真正成為異構(gòu)數(shù)據(jù)語義翻譯的基礎(chǔ),為大數(shù)據(jù)驅(qū)動下全球數(shù)據(jù)復用、融合提供服務(wù)。
本文對地球科學知識圖譜的特點和作用、建設(shè)的意義和構(gòu)建方法進行了全面的梳理。知識圖譜在數(shù)據(jù)集成和數(shù)據(jù)挖掘領(lǐng)域的大規(guī)模應(yīng)用還是一個相對較新的方法和技術(shù),尤其對于地球科學領(lǐng)域知識圖譜的構(gòu)建和應(yīng)用,還存在著諸多亟待解決的問題。
(1)知識體系的建立缺乏統(tǒng)一性
隨著數(shù)據(jù)、技術(shù)、方法的不斷更新,科學家對地球各圈層的認識也在不斷的更新。在知識點的分類、定義或者技術(shù)、方法等各個層面可能還存在爭議,難以實現(xiàn)完全的統(tǒng)一。因此,知識體系的建設(shè)是一個不斷完善和發(fā)展的過程,不可能一蹴而就,需要經(jīng)過不斷的更新、維護,才能保證知識體系的相對完整性和科學性。
(2)知識圖譜的構(gòu)建方法還不成熟
知識圖譜的構(gòu)建方法和技術(shù)都還不太成熟。本文雖然對知識圖譜的構(gòu)建方法進行了闡述,但是目前還沒有一個成熟的方法體系可以借鑒。即便在知識圖譜建設(shè)比較早的信息科學、生命科學等領(lǐng)域,知識圖譜的建設(shè)方法和流程也沒有形成特別成熟的方案,還需要根據(jù)領(lǐng)域特點、構(gòu)建需求以及關(guān)鍵技術(shù)選擇合理的構(gòu)建方法和流程。知識圖譜的完整性、可擴展性還有待檢驗。
(3)基于知識圖譜的數(shù)據(jù)獲取、訪問和融合機制還不完善
如何根據(jù)已經(jīng)建立的知識圖譜在跨學科多源數(shù)據(jù)之間實現(xiàn)語義映射、翻譯和推理的機制還未成熟,這關(guān)系到能否有效利用知識圖譜將多源異構(gòu)的大數(shù)據(jù)集與相關(guān)領(lǐng)域的概念聯(lián)系起來,從而建立基于知識圖譜的數(shù)據(jù)獲取、訪問和融合機制,實現(xiàn)異構(gòu)數(shù)據(jù)之間的互操作、集成和復用,并利用機器學習等人工智能方法實現(xiàn)數(shù)據(jù)挖掘,開展相關(guān)的應(yīng)用研究。
大數(shù)據(jù)的建設(shè),實現(xiàn)了孤立、零散數(shù)據(jù)的數(shù)字化和集中化,建立了e-data的概念。而要使得e-data上升為e-science,即真正實現(xiàn)讓數(shù)據(jù)自己說話,就需要讓知識圖譜充分發(fā)揮映射-翻譯-推理的橋梁作用,結(jié)合數(shù)據(jù)挖掘、機器學習等人工智能技術(shù),為地球科學問題的求解提供新的思路和認識,使得e-data真正符合“可訪問、可獲取、可解釋、可復用”的FAIR數(shù)據(jù)原則(Wilkinson et al.,2016),并完成從e-data向e-science的轉(zhuǎn)變,為大數(shù)據(jù)驅(qū)動下的地球科學問題的解答提供語義翻譯和數(shù)據(jù)挖掘的基礎(chǔ),真正開啟地球科學研究的新范式。
致謝:感謝中國地質(zhì)科學院地質(zhì)研究所王濤研究員、童英研究員、南京大學胡修棉教授、李超博士生在地球科學領(lǐng)域本體建構(gòu)方面給予的建議,感謝南京大學史宇坤副教授對論文寫作給予的幫助,感謝匿名審稿人和編輯對論文提出的修改意見和建議。