馮秋睿,趙 汀,劉 超
(自然資源部成礦作用與資源評(píng)價(jià)重點(diǎn)實(shí)驗(yàn)室,中國(guó)地質(zhì)科學(xué)院礦產(chǎn)資源研究所,北京 100037)
三稀礦產(chǎn)具有極為重要的用途,在新能源、通訊技術(shù)、電子計(jì)算機(jī)、航空航天、醫(yī)學(xué)藥物、化工等領(lǐng)域有著廣泛的應(yīng)用,是當(dāng)前許多先進(jìn)技術(shù)的物質(zhì)載體[1]。三稀礦產(chǎn)的安全供應(yīng)已經(jīng)上升至國(guó)家發(fā)展戰(zhàn)略高度,2017年美國(guó)簽發(fā)了《確保關(guān)鍵礦產(chǎn)安全和可靠供應(yīng)的聯(lián)邦戰(zhàn)略》的第13817號(hào)行政令,強(qiáng)調(diào)要查明關(guān)鍵礦產(chǎn)的新來源,減少因關(guān)鍵礦產(chǎn)供應(yīng)鏈中斷帶來的國(guó)家安全與經(jīng)濟(jì)發(fā)展隱患,保障美國(guó)對(duì)關(guān)鍵礦產(chǎn)資源的穩(wěn)定供給[2],同年發(fā)布的《美國(guó)的關(guān)鍵礦產(chǎn)資源—經(jīng)濟(jì)和環(huán)境地質(zhì)及未來供應(yīng)展望》報(bào)告,三稀礦產(chǎn)位列其中;歐盟也在2018年將三稀礦產(chǎn)列入《關(guān)鍵原材料和循環(huán)經(jīng)濟(jì)》報(bào)告;早在2010年,我國(guó)就啟動(dòng)了三稀礦產(chǎn)地質(zhì)調(diào)查,取得了一系列的成果[3],并建成了三稀礦產(chǎn)數(shù)據(jù)庫(kù)[4]。2023年7月3日,我國(guó)商務(wù)部、海關(guān)總署聯(lián)合發(fā)布了對(duì)鎵、鍺相關(guān)物項(xiàng)實(shí)施出口管制的公告,在當(dāng)前世界發(fā)展形勢(shì)之下,三稀礦產(chǎn)在國(guó)家資源安全中的重要性愈發(fā)凸顯。
長(zhǎng)期以來,地質(zhì)勘查人員運(yùn)用專業(yè)知識(shí)結(jié)合調(diào)查數(shù)據(jù),開展野外觀測(cè)和物探、化探工作,發(fā)現(xiàn)了一大批三稀礦床和礦點(diǎn),取得了顯著的找礦成果[5]。大量、多源、多種類的勘查數(shù)據(jù)和勘查報(bào)告,以及基于這些數(shù)據(jù)產(chǎn)出的文獻(xiàn)成為礦產(chǎn)信息表達(dá)與存儲(chǔ)的重要載體,此類數(shù)據(jù)內(nèi)容描述從簡(jiǎn)單到復(fù)雜,涉及各礦區(qū)的地層、構(gòu)造、巖漿巖等地質(zhì)信息,以及規(guī)模、形態(tài)、產(chǎn)狀、分布等成礦地質(zhì)特征知識(shí)[6],如何從這些數(shù)據(jù)中抽取知識(shí)、存儲(chǔ)和管理知識(shí),以及以直觀的方式表示出實(shí)體及其屬性、關(guān)系,是總結(jié)三稀礦產(chǎn)成礦規(guī)律和成礦預(yù)測(cè)的重要研究基礎(chǔ),而三稀礦產(chǎn)知識(shí)圖譜作為地學(xué)知識(shí)圖譜的領(lǐng)域化應(yīng)用,因其豐富的形式化語(yǔ)義信息以及靈活的數(shù)據(jù)關(guān)聯(lián)模型,可以有效解決信息檢索與推薦、知識(shí)發(fā)現(xiàn)與推理等一系列三稀礦產(chǎn)研究的基礎(chǔ)問題。
近年來,地學(xué)知識(shí)圖譜的建設(shè)取得了長(zhǎng)足的發(fā)展。美國(guó)全球變化研究計(jì)劃(2013)集成開源和基于網(wǎng)絡(luò)的資源,以協(xié)調(diào)和整合全球環(huán)境變化相關(guān)的數(shù)據(jù)資源,將其集合成GCIS Ontology。WANG等[7]利用分詞規(guī)則對(duì)地質(zhì)類文獻(xiàn)進(jìn)行解析,分析了詞語(yǔ)之間的語(yǔ)義關(guān)系,并將詞語(yǔ)及其相互關(guān)系可視化為節(jié)點(diǎn)和邊,直觀清晰地表達(dá)了地質(zhì)類文獻(xiàn)中的關(guān)鍵信息。劉俊楠等[8]提出了以地理空間數(shù)據(jù)提取地理實(shí)體為主,百度百科補(bǔ)充屬性信息為輔的知識(shí)圖譜構(gòu)建方式。周永章等[9]選取華南欽杭成礦帶的6個(gè)斑巖銅礦、斑巖矽卡巖型銅礦為研究對(duì)象,收集期刊與調(diào)查報(bào)告中相關(guān)的文本,并總結(jié)出斑巖銅礦本體,抽取數(shù)據(jù)構(gòu)建斑巖銅礦知識(shí)圖譜。楊玉瑩等[10]圍繞濕地類型、特征分布等要素分析濕地領(lǐng)域知識(shí)建模形成濕地圖譜的概念框架,其次,融合百度百科進(jìn)行濕地實(shí)體提取,實(shí)現(xiàn)濕地知識(shí)圖譜構(gòu)建。冉一早等[11]以關(guān)鍵金屬為研究對(duì)象,開發(fā)建設(shè)了知識(shí)圖譜的大數(shù)據(jù)共享平臺(tái)。張春菊等[12]以總結(jié)出的金礦本體為基礎(chǔ),構(gòu)建金礦知識(shí)圖譜并開發(fā)了金礦知識(shí)圖譜的若干功能,其完整的構(gòu)建流程成為各礦種知識(shí)圖譜構(gòu)建的重要參考對(duì)象。
地學(xué)知識(shí)圖譜在其他領(lǐng)域已有一定的研究,然而三稀礦產(chǎn)領(lǐng)域知識(shí)具有自身的特殊性,其豐富的語(yǔ)義關(guān)聯(lián)難以通過現(xiàn)有其他地學(xué)知識(shí)圖譜直接復(fù)現(xiàn)和表達(dá),根據(jù)領(lǐng)域特征來表示豐富的三稀礦產(chǎn)知識(shí)還沒有深入的研究。因此,本文以三稀礦產(chǎn)相關(guān)文獻(xiàn)為數(shù)據(jù)源,結(jié)合本體構(gòu)建方法構(gòu)建三稀礦產(chǎn)本體,引入知識(shí)工程中的知識(shí)抽取、知識(shí)表示技術(shù),構(gòu)建三稀礦產(chǎn)知識(shí)圖譜,實(shí)現(xiàn)勘查數(shù)據(jù)、礦床文獻(xiàn)等向礦床基本屬性、成礦規(guī)律、礦床分布等礦床本體數(shù)據(jù)的知識(shí)轉(zhuǎn)換,為基于本體的礦床知識(shí)圖譜構(gòu)建提供參考,為后續(xù)三稀礦產(chǎn)知識(shí)管理、隱藏知識(shí)挖掘提供基礎(chǔ)。
知識(shí)圖譜的構(gòu)建有3種方式:自底向上、自頂向下和二者混合的方法[13],構(gòu)建流程如圖1所示,主要包括模式層設(shè)計(jì)、數(shù)據(jù)層構(gòu)建、知識(shí)存儲(chǔ)和知識(shí)計(jì)算應(yīng)用[14]。
圖1 知識(shí)圖譜構(gòu)建流程Fig. 1 Construction process of knowledge graph
1)參照三稀礦產(chǎn)行業(yè)規(guī)范,三稀礦產(chǎn)調(diào)查和資源綜述,與三稀礦產(chǎn)相關(guān)某礦區(qū)、礦床的調(diào)查報(bào)告或發(fā)表文獻(xiàn)等專著或地質(zhì)勘查報(bào)告,梳理三稀礦產(chǎn)知識(shí)體系,確定三稀礦產(chǎn)的概念、實(shí)體、屬性與關(guān)系。運(yùn)用本體構(gòu)建方法,對(duì)三稀礦產(chǎn)知識(shí)體系建模,構(gòu)建三稀礦產(chǎn)知識(shí)圖譜的概念模型,形成三稀礦產(chǎn)知識(shí)圖譜的模式層。
2)基于收集的地質(zhì)文獻(xiàn),提取其中的非結(jié)構(gòu)化數(shù)據(jù)作為數(shù)據(jù)源,選擇其中的部分?jǐn)?shù)據(jù)作為深度學(xué)習(xí)模型訓(xùn)練的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,用以驗(yàn)證選擇的深度學(xué)習(xí)模型在知識(shí)圖譜構(gòu)建中的可行性,運(yùn)用在三稀語(yǔ)料中訓(xùn)練的深度學(xué)習(xí)模型,進(jìn)行三稀礦產(chǎn)知識(shí)抽取、三稀知識(shí)融合,抽取大量三稀礦產(chǎn)實(shí)例以擴(kuò)充實(shí)例層,并通過擴(kuò)充后的實(shí)例層所包含的大量三稀礦產(chǎn)實(shí)例自底向上完善三稀礦產(chǎn)知識(shí)圖譜的模式層。最后,為了存儲(chǔ)和直觀體現(xiàn)出三稀礦產(chǎn)的知識(shí)體系和海量實(shí)例,使用Neo4j圖數(shù)據(jù)庫(kù)對(duì)三稀知識(shí)三元組進(jìn)行存儲(chǔ),存儲(chǔ)的三元組格式為<實(shí)體,關(guān)系,實(shí)體><實(shí)體,屬性,屬性值>。
三稀礦產(chǎn)知識(shí)圖譜架構(gòu)設(shè)計(jì)如圖2所示。三稀礦產(chǎn)知識(shí)圖譜的構(gòu)建涉及到模式層和數(shù)據(jù)層兩個(gè)關(guān)鍵的架構(gòu)設(shè)計(jì)。模式層用于定義三稀礦產(chǎn)的概念集合、屬性和關(guān)系,形成知識(shí)圖譜的結(jié)構(gòu)和模式;數(shù)據(jù)層則用于存儲(chǔ)和管理實(shí)際的三稀礦產(chǎn)數(shù)據(jù),為知識(shí)圖譜提供實(shí)例和具體數(shù)據(jù)支持。
圖2 三稀礦產(chǎn)知識(shí)圖譜架構(gòu)設(shè)計(jì)Fig. 2 Design of the knowledge graph architecture for the three types of rare mineral
1.2.1 模式層架構(gòu)設(shè)計(jì)
在模式層的架構(gòu)設(shè)計(jì)中,考慮4個(gè)關(guān)鍵要素:概念集合、屬性和關(guān)系、本體規(guī)范、模式驗(yàn)證。
1)概念集合:定義三稀礦產(chǎn)領(lǐng)域的核心概念和實(shí)體。例如,識(shí)別和定義礦床、礦石、礦物、地質(zhì)特征等概念,建立它們之間的層次關(guān)系和包含關(guān)系,以形成一個(gè)有機(jī)的概念集合。
2)屬性和關(guān)系:確定三稀礦產(chǎn)概念集合中實(shí)體的屬性和它們之間的關(guān)系。例如,確定礦床的地理位置、礦石的成分屬性、礦物之間的關(guān)系等。同時(shí),還可以定義關(guān)系的屬性,如關(guān)系的強(qiáng)度、方向性等。
3)本體規(guī)范:建立三稀礦產(chǎn)知識(shí)的本體規(guī)范,用于定義概念集合、屬性和關(guān)系的語(yǔ)義和邏輯約束。本體規(guī)范可以基于領(lǐng)域?qū)<业闹R(shí)和領(lǐng)域文獻(xiàn),結(jié)合本體建模技術(shù),形成一套可擴(kuò)展和一致的知識(shí)表達(dá)模式。
4)模式驗(yàn)證:對(duì)模式層進(jìn)行驗(yàn)證和評(píng)估,確保模式層的可行性和合理性。這可以通過與領(lǐng)域?qū)<业挠懻摵头答?,以及與已有礦產(chǎn)數(shù)據(jù)庫(kù)的對(duì)比來實(shí)現(xiàn)。
1.2.2 數(shù)據(jù)層架構(gòu)設(shè)計(jì)
在數(shù)據(jù)層的架構(gòu)設(shè)計(jì)中,需要考慮5個(gè)關(guān)鍵要素:數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)模型、數(shù)據(jù)集成、數(shù)據(jù)索引和查詢、數(shù)據(jù)質(zhì)量管理。
1)數(shù)據(jù)存儲(chǔ):選擇合適的數(shù)據(jù)存儲(chǔ)技術(shù)和格式來存儲(chǔ)實(shí)際的三稀礦產(chǎn)數(shù)據(jù)。可以使用關(guān)系型數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)或知識(shí)圖數(shù)據(jù)庫(kù)等,根據(jù)數(shù)據(jù)的特點(diǎn)和需求選擇最合適的存儲(chǔ)方式。
2)數(shù)據(jù)模型:根據(jù)模式層定義的模式和本體規(guī)范,設(shè)計(jì)三稀礦產(chǎn)數(shù)據(jù)的結(jié)構(gòu)模型。這包括實(shí)體的屬性和關(guān)系的定義以及它們之間的聯(lián)系和依賴關(guān)系??梢允褂脤?shí)體-屬性-關(guān)系(Entity-Attribute-Relationship)模型或圖(Graph)模型等來表示和組織實(shí)際的三稀礦產(chǎn)數(shù)據(jù)。
3)數(shù)據(jù)集成:整合來自不同數(shù)據(jù)源的三稀礦產(chǎn)數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)整合。這可以基于數(shù)據(jù)抽取、轉(zhuǎn)換和加載流程來實(shí)現(xiàn),確保數(shù)據(jù)的質(zhì)量和一致性。
4)數(shù)據(jù)索引和查詢:建立數(shù)據(jù)的索引和優(yōu)化機(jī)制,以提高數(shù)據(jù)的查詢效率和響應(yīng)速度??梢曰跀?shù)據(jù)存儲(chǔ)技術(shù)提供的索引功能,或者使用專門的搜索引擎技術(shù)來實(shí)現(xiàn)。
5)數(shù)據(jù)質(zhì)量管理:設(shè)計(jì)和實(shí)施數(shù)據(jù)質(zhì)量管理策略和控制措施,確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。這可以包括數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)糾正和數(shù)據(jù)監(jiān)控等方面的工作。
通過模式層和數(shù)據(jù)層的架構(gòu)設(shè)計(jì),能夠建立起一個(gè)完整且系統(tǒng)化的三稀礦產(chǎn)知識(shí)圖譜。模式層提供了對(duì)知識(shí)的形式化和規(guī)范化表達(dá),定義了三稀礦產(chǎn)的概念、屬性和關(guān)系,為知識(shí)的共享和理解提供了基礎(chǔ)。數(shù)據(jù)層則存儲(chǔ)和管理實(shí)際的三稀礦產(chǎn)數(shù)據(jù),為三稀知識(shí)圖譜的應(yīng)用與分析提供了基礎(chǔ),構(gòu)建后的三稀礦產(chǎn)數(shù)據(jù)層使三稀礦產(chǎn)模式層實(shí)例化,完成了從三稀礦產(chǎn)勘查數(shù)據(jù)向成礦規(guī)律等知識(shí)轉(zhuǎn)換。通過這兩個(gè)層次的合理設(shè)計(jì)和實(shí)現(xiàn),能夠更好地理解和利用三稀礦產(chǎn)的知識(shí),為三稀礦產(chǎn)資源的管理和開發(fā)提供更加有效和可靠的支持,并基于圖數(shù)據(jù)庫(kù)的基礎(chǔ)功能實(shí)現(xiàn)三稀礦產(chǎn)數(shù)據(jù)查詢、數(shù)據(jù)管理、三稀礦產(chǎn)知識(shí)抽取、知識(shí)可視化表達(dá)等功能,為基于知識(shí)圖譜的三稀礦產(chǎn)成礦預(yù)測(cè)、三稀礦產(chǎn)資源管理、三稀礦產(chǎn)知識(shí)挖掘提供基礎(chǔ)。
在對(duì)三稀礦產(chǎn)的概念、實(shí)體、屬性、關(guān)系進(jìn)行定義的基礎(chǔ)上,人工梳理三稀礦產(chǎn)的知識(shí)體系。從頂端知識(shí)出發(fā),基于已有的三稀礦產(chǎn)地質(zhì)調(diào)查報(bào)告和文獻(xiàn),總結(jié)三稀礦產(chǎn)成礦地質(zhì)特征等重要規(guī)律,逐層構(gòu)建知識(shí)體系,清晰表達(dá)出三稀礦產(chǎn)實(shí)體及其圍繞的各種關(guān)系和屬性關(guān)聯(lián),確保知識(shí)圖譜構(gòu)建的準(zhǔn)確性、完整性和規(guī)范性。應(yīng)用本體構(gòu)建的七步法[15]進(jìn)行本體建模,本體的主要組成見式(1)。
式中:Ontology為本體;Conception為概念或者類;Property為屬性;Axiom為公理,即對(duì)本體構(gòu)建領(lǐng)域等的約束;Value為屬性值;Nominal為概念與實(shí)例的鏈接。
將本體構(gòu)成要素引入三稀礦產(chǎn)本體構(gòu)建中,式(2)為五元組。
式中:GOnto為構(gòu)建的三稀礦產(chǎn)本體;GCon為三稀礦產(chǎn)的概念;GProp為三稀礦產(chǎn)的屬性,包含了三稀礦產(chǎn)的成礦時(shí)間、大地構(gòu)造位置、成礦地質(zhì)構(gòu)造、空間、規(guī)模等成礦地質(zhì)特征;GRel為三稀礦產(chǎn)實(shí)體之間的相互關(guān)系,實(shí)體與實(shí)例之間的實(shí)例關(guān)系,以及實(shí)例與屬性的關(guān)聯(lián)關(guān)系;GRul為規(guī)則,即在三稀礦產(chǎn)本體構(gòu)建時(shí)對(duì)概念和實(shí)例的類型、組合方式的約束;GIns為概念的實(shí)例化。
三稀礦產(chǎn)本體結(jié)構(gòu)如圖3所示。
圖3 三稀礦產(chǎn)本體結(jié)構(gòu)圖Fig. 3 Ontology structure diagram of the three types of rare mineral
三稀礦產(chǎn)概念[16]劃分見式(3)。
式中:C1為礦床;C2為礦段;C3為礦體;C4為礦區(qū)。
三稀礦產(chǎn)知識(shí)圖譜中的屬性特征以及關(guān)系都是圍繞著三稀礦產(chǎn)實(shí)體展開的,而在對(duì)一個(gè)地質(zhì)實(shí)體進(jìn)行勘查時(shí),為了查明和研究礦體的變化規(guī)律、預(yù)測(cè)礦體變化性及礦床儲(chǔ)量、質(zhì)量、形態(tài)等的地質(zhì)依據(jù),首先需要確定當(dāng)前調(diào)查區(qū)域內(nèi)的地層、構(gòu)造、巖漿巖等地質(zhì)情況,緊接著查明礦體形態(tài)、產(chǎn)狀、分布、礦石品位、物質(zhì)組分、結(jié)構(gòu)構(gòu)造等成礦地質(zhì)特征。因此,本文結(jié)合已有的三稀礦產(chǎn)概念建模,結(jié)合如《固體礦產(chǎn)礦點(diǎn)(床)地質(zhì)數(shù)據(jù)文件格式》(DZ/T 0127—1994)[17]等行業(yè)標(biāo)準(zhǔn),建立三稀礦產(chǎn)實(shí)體、屬性和實(shí)體與屬性特征的關(guān)聯(lián),對(duì)三稀礦產(chǎn)實(shí)體和屬性建模。
三稀礦產(chǎn)的語(yǔ)義關(guān)系包含了三稀礦產(chǎn)概念和實(shí)例之間的映射關(guān)系、三稀礦產(chǎn)實(shí)體之間的包含關(guān)系、三稀礦產(chǎn)實(shí)體和屬性之間的關(guān)聯(lián)關(guān)系。其中,三稀礦產(chǎn)概念和實(shí)例之間的映射關(guān)系可表示為式(4)。
式中:C為概念;e為概念對(duì)應(yīng)的某個(gè)實(shí)例;r為概念和這個(gè)實(shí)例之間的實(shí)例關(guān)系。比如礦床概念的一個(gè)實(shí)例牦牛坪稀土礦床,三元組表示為(礦床,實(shí)例,牦牛坪稀土礦床)。
三稀礦產(chǎn)實(shí)體之間的包含關(guān)系主要是根據(jù)不同層級(jí)的概念之間的相互關(guān)系進(jìn)行定義,按照概念層級(jí)可表示為式(5)。
式中:R(Ci,Cj)為包含關(guān)系,礦床C1包含礦段C2,礦段C2包含礦體C3,礦床C1包含礦體C3。語(yǔ)義關(guān)系在不同層級(jí)的概念對(duì)應(yīng)的三稀礦產(chǎn)實(shí)體之間均適用。
實(shí)體-屬性關(guān)聯(lián)關(guān)系主要是圍繞三稀礦產(chǎn)實(shí)體的屬性特征,根據(jù)種類可以分為對(duì)象屬性和數(shù)據(jù)屬性。其中,對(duì)象屬性是三稀礦產(chǎn)實(shí)體與屬性對(duì)象在語(yǔ)義關(guān)系上的關(guān)聯(lián),如礦床實(shí)體與賦礦地層、成礦構(gòu)造、大地構(gòu)造等屬性之間的關(guān)聯(lián)。數(shù)據(jù)屬性是三稀礦產(chǎn)實(shí)體與屬性數(shù)值之間的關(guān)聯(lián)關(guān)系,如礦體實(shí)體與傾向、傾角、長(zhǎng)度、厚度等數(shù)值的關(guān)聯(lián)。實(shí)體-屬性關(guān)聯(lián)關(guān)系可形式化表達(dá)為式(6)。
式中:e為三稀礦產(chǎn)實(shí)例;property為三稀礦產(chǎn)屬性;value為三稀礦產(chǎn)實(shí)體對(duì)應(yīng)的屬性值。
3.1.1 語(yǔ)料庫(kù)構(gòu)建
非結(jié)構(gòu)化數(shù)據(jù)作為礦產(chǎn)信息的重要載體,是地質(zhì)學(xué)家在地質(zhì)調(diào)查工作中對(duì)諸多地質(zhì)問題所作的記錄以及對(duì)地質(zhì)現(xiàn)象、地質(zhì)問題等研究結(jié)論的重要載體。非結(jié)構(gòu)化數(shù)據(jù)通常形成集合并且與結(jié)構(gòu)化數(shù)據(jù)如表格等結(jié)合成為礦產(chǎn)勘查報(bào)告、期刊文獻(xiàn),能夠?qū)δ骋粋€(gè)礦產(chǎn)實(shí)體及其關(guān)系、屬性進(jìn)行集中表達(dá)。其中,期刊雜志包含的知識(shí)相對(duì)前沿,且內(nèi)容表達(dá)相對(duì)規(guī)范,是大量地質(zhì)工作者經(jīng)過精練與加工后的研究[18-19]。
本文建立以三稀礦產(chǎn)相關(guān)的文獻(xiàn)為數(shù)據(jù)源的語(yǔ)料庫(kù),提取清洗其中的非結(jié)構(gòu)化數(shù)據(jù),并使用基于深度學(xué)習(xí)的知識(shí)抽取來從非結(jié)構(gòu)化數(shù)據(jù)中自動(dòng)獲取三稀礦產(chǎn)知識(shí)。深度學(xué)習(xí)的訓(xùn)練集來源于三稀礦產(chǎn)相關(guān)的發(fā)表于《礦床地質(zhì)》《中國(guó)礦業(yè)》等期刊上的67篇文獻(xiàn),經(jīng)預(yù)處理獲取4089條語(yǔ)句。
由于提取出的非結(jié)構(gòu)化數(shù)據(jù)具有領(lǐng)域性,無法直接使用如BERT等基于自然語(yǔ)言語(yǔ)料訓(xùn)練的模型。因此,需要根據(jù)三稀礦產(chǎn)領(lǐng)域的特殊性構(gòu)建訓(xùn)練集,完成訓(xùn)練。本文基于doccano標(biāo)注平臺(tái),依據(jù)三稀礦產(chǎn)本體,進(jìn)行三稀礦產(chǎn)實(shí)體、屬性、三稀礦產(chǎn)語(yǔ)義關(guān)系標(biāo)注,構(gòu)建三稀礦產(chǎn)知識(shí)抽取的標(biāo)注語(yǔ)料庫(kù)[20-21]。語(yǔ)料標(biāo)注示例見表1。
表1 語(yǔ)料標(biāo)注示例Table 1 Example of corpus annotation
3.1.2 模型訓(xùn)練
利用tokenizer對(duì)文本進(jìn)行分詞,并將每個(gè)詞轉(zhuǎn)換為RoBERTa的token表示。同時(shí),建立一個(gè)詞典來對(duì)應(yīng)每個(gè)token的ID。將文本序列分成固定長(zhǎng)度的小塊等待訓(xùn)練(例如,每個(gè)小塊包含256個(gè)token)。對(duì)每個(gè)小塊的文本序列進(jìn)行padding,以保證所有小塊的長(zhǎng)度相同。
開始訓(xùn)練前需要構(gòu)建模型架構(gòu)。首先,將預(yù)訓(xùn)練的BERT模型加載并提取出文本序列的特征,得到上下文感知的詞向量序列;其次,將BERT的輸出輸入到LSTM層中,用于提取序列的上下文信息;最后,將LSTM層的輸出輸入到CRF層,用于進(jìn)行序列標(biāo)注。為了在訓(xùn)練過程中對(duì)模型進(jìn)行監(jiān)督和優(yōu)化,以達(dá)到更好的性能和準(zhǔn)確度,需要定義損失函數(shù)和優(yōu)化器,本文定義損失函數(shù)為CRF的負(fù)對(duì)數(shù)似然損失,以便訓(xùn)練時(shí)可以同時(shí)考慮標(biāo)簽之間的依賴關(guān)系。
在完成模型架構(gòu)構(gòu)建后,開始訓(xùn)練。首先,將訓(xùn)練數(shù)據(jù)集輸入模型,得到預(yù)測(cè)的標(biāo)簽序列;其次,計(jì)算損失函數(shù)并進(jìn)行反向傳播,更新模型的參數(shù);最后,重復(fù)以上步驟,進(jìn)行多個(gè)批次的訓(xùn)練,直到模型收斂為止。使用驗(yàn)證集對(duì)訓(xùn)練完成的模型進(jìn)行評(píng)估,并根據(jù)評(píng)估結(jié)果調(diào)整模型參數(shù)或進(jìn)行更多的訓(xùn)練迭代。最后將完成訓(xùn)練的模型參數(shù)進(jìn)行保存,等待后續(xù)操作。模型訓(xùn)練流程如圖4所示。
圖4 模型訓(xùn)練流程Fig. 4 Training process of model
非結(jié)構(gòu)化文本包含復(fù)雜的語(yǔ)義關(guān)系,具有文本距離長(zhǎng)、多指代、多領(lǐng)域詞匯等特征,是知識(shí)抽取自動(dòng)化的重要難題。知識(shí)抽取方法經(jīng)歷了“基于規(guī)則和詞典”到“基于機(jī)器學(xué)習(xí)”再到“基于深度學(xué)習(xí)”的發(fā)展歷程,傳統(tǒng)的基于規(guī)則和詞典的方法是領(lǐng)域?qū)<液驼Z(yǔ)言學(xué)者在分析各類地質(zhì)實(shí)體和屬性文本描述特征的基礎(chǔ)上,手工制定有效規(guī)則與匹配模板,將文本與規(guī)則進(jìn)行匹配識(shí)別,此方法雖然原理簡(jiǎn)單,但構(gòu)建時(shí)間長(zhǎng),面對(duì)復(fù)雜多樣的地質(zhì)知識(shí)時(shí),適用性差?;跈C(jī)器學(xué)習(xí)的方法,首先,制定特征;然后,讓機(jī)器學(xué)習(xí)特征與對(duì)應(yīng)地質(zhì)實(shí)體的關(guān)系;最后,抽取地質(zhì)知識(shí)。這種方法對(duì)于特征的制定要求極高,對(duì)用于訓(xùn)練的語(yǔ)料庫(kù)依賴大,難以適應(yīng)目標(biāo)需求。基于深度學(xué)習(xí)的方法與基于機(jī)器學(xué)習(xí)的方法不同之處在于,深度學(xué)習(xí)通過深層次神經(jīng)網(wǎng)絡(luò)提取特征,無需特征制定,降低了人工成本,并且經(jīng)歷了深層次神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),獲得的特征符合應(yīng)用領(lǐng)域需求。因此,基于深度學(xué)習(xí)的地質(zhì)實(shí)體成為當(dāng)前知識(shí)抽取的主流方法。
知識(shí)抽取有兩種方式:流水線(Pipeline)和聯(lián)合抽?。↗oint),本文采用基于深度學(xué)習(xí)的方法,以“流水線”的方式提取三稀礦產(chǎn)知識(shí),即分為兩個(gè)子任務(wù)進(jìn)行知識(shí)抽取。
3.2.1 實(shí)體抽取
本文以三稀礦產(chǎn)知識(shí)體系為基礎(chǔ),采用現(xiàn)有的語(yǔ)言預(yù)訓(xùn)練模型RoBERTa(Robustly Optimized BERT Pretraining Approach)[22-23]的中文版RoBERTa-zh-Large、雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)[24]和條件隨機(jī)場(chǎng)模型(CRF)[25]整合,進(jìn)行三稀礦產(chǎn)實(shí)體的抽取。
抽取流程如圖5所示,即通過在輸入端使用中文預(yù)訓(xùn)練模型RoBERTa-zh-large生成三稀礦產(chǎn)實(shí)體和屬性詞向量,結(jié)合BiLSTM網(wǎng)絡(luò),從中提取三稀礦產(chǎn)實(shí)體和屬性的特征。隨后,借助CRF模型對(duì)實(shí)體和屬性進(jìn)行標(biāo)簽預(yù)測(cè),完成抽取三稀礦產(chǎn)的實(shí)體和屬性。在所獲取的非結(jié)構(gòu)化數(shù)據(jù)當(dāng)中,三稀礦產(chǎn)的實(shí)體表述規(guī)范,但對(duì)象屬性與數(shù)值屬性的描述比較復(fù)雜,因而就實(shí)際效果來看,三稀礦產(chǎn)實(shí)體的識(shí)別效果優(yōu)于屬性識(shí)別。同時(shí),即便已經(jīng)使用了RoBERTa+BiLSTM+CRF的整合模型,但也存在少量因邊界模糊而導(dǎo)致的識(shí)別錯(cuò)誤、識(shí)別不全,例如在處理“廣西大廠礦區(qū)”時(shí),誤將“廣西大廠”單獨(dú)認(rèn)定為地名屬性而致使“廣西大廠礦區(qū)”礦區(qū)的實(shí)體提取失敗,對(duì)于在抽取過程中出現(xiàn)的錯(cuò)誤識(shí)別問題,依據(jù)語(yǔ)料庫(kù)進(jìn)行修改,并且使用實(shí)體對(duì)齊、實(shí)體消歧等知識(shí)融合方法對(duì)識(shí)別不全的實(shí)體進(jìn)行融合更新。
圖5 知識(shí)抽取流程Fig. 5 Process of knowledge extraction
3.2.2 語(yǔ)義關(guān)系抽取
采用RoBERTa+BiLSTM+CRF的框架進(jìn)行語(yǔ)義關(guān)系抽取,并根據(jù)實(shí)體、屬性識(shí)別出的結(jié)果進(jìn)行配對(duì),傳入模型中進(jìn)行語(yǔ)義關(guān)系分類。由于每?jī)蓚€(gè)實(shí)體和屬性都需要配對(duì)并且分類,拉低了模型分類的效率,增加了分類時(shí)的計(jì)算量和可能造成的誤差,因此,本文根據(jù)建立的三稀礦產(chǎn)知識(shí)體系對(duì)實(shí)體和屬性、實(shí)體和實(shí)體的關(guān)系進(jìn)行了預(yù)定義,當(dāng)需要將實(shí)體、屬性兩兩配對(duì)時(shí),不在預(yù)定義的關(guān)系中的實(shí)體對(duì)、實(shí)體屬性對(duì)不可傳入模型進(jìn)行分類,增加模型分類效率的同時(shí)也避免了實(shí)體對(duì)、實(shí)體屬性對(duì)的誤匹配。經(jīng)過模型分類后,輸出三元組。模型超參數(shù)見表2。
表2 模型超參數(shù)Table 2 Hyperparameters of model
3.2.3 知識(shí)融合
知識(shí)圖譜中的實(shí)體、關(guān)系和屬性的抽取通常由于專業(yè)領(lǐng)域的特殊性而存在一些問題,如一詞多義。因此,為了解決知識(shí)抽取完成后存在的若干問題,本文采用了實(shí)體的對(duì)齊和消歧等知識(shí)融合方法,判斷具有不同描述的實(shí)體是否指向同一對(duì)象,并依據(jù)判斷結(jié)果對(duì)認(rèn)定為同一對(duì)象的知識(shí)進(jìn)行融合。該方法結(jié)合了字符向量、詞向量和上下文特征向量,使用數(shù)值計(jì)算的方式來實(shí)現(xiàn)實(shí)體的對(duì)齊和消歧。這種方法可以更準(zhǔn)確地表示三稀礦產(chǎn)實(shí)體的語(yǔ)義相似度,并提高知識(shí)融合的質(zhì)量和精度。
簡(jiǎn)要流程為:首先,對(duì)描述相同的稀土礦產(chǎn)實(shí)體和屬性去重;其次,三稀礦產(chǎn)實(shí)體可能在不同的期刊文獻(xiàn)中存在別稱、縮寫和解釋等多種表述形式,導(dǎo)致知識(shí)抽取后獲得重復(fù)實(shí)體。為了解決這一問題,采用數(shù)值向量來表示三稀礦產(chǎn)實(shí)體,并通過衡量?jī)蓚€(gè)實(shí)體向量的語(yǔ)義相似度來實(shí)現(xiàn)實(shí)體的對(duì)齊和消歧。
根據(jù)式(7)[26-27]計(jì)算三稀礦產(chǎn)實(shí)體的特征向量V。
式中:C為字符向量,包含實(shí)體的字符信息,對(duì)應(yīng)字符向量權(quán)重參數(shù)α;W為詞向量,由預(yù)訓(xùn)練模型如BERT微調(diào)模型得出,包含語(yǔ)料庫(kù)中的實(shí)體,對(duì)應(yīng)詞向量權(quán)重參數(shù)β;∑f∈cWf為上下文語(yǔ)境c中的特征向量,包含當(dāng)前實(shí)體所處的語(yǔ)境信息,對(duì)應(yīng)權(quán)重參數(shù)γ;Wf為特征詞f的特征向量;N(c)為詞總數(shù)。
根據(jù)設(shè)定的閾值(本文設(shè)定為0.9,即當(dāng)余弦相似度大于0.9時(shí),認(rèn)定兩個(gè)實(shí)體為同一實(shí)體),通過計(jì)算兩個(gè)實(shí)體特征向量的余弦相似度,來判斷實(shí)體是否屬于同一個(gè)實(shí)體并進(jìn)行合并。在知識(shí)融合的過程中,采用人工輔助的方式來提升知識(shí)融合的精度。
目前,主流的圖數(shù)據(jù)庫(kù)包括Neo4j[28]、Graph Engine、AllegroGraph[29]、gstore[30]、Dgraph等,其中,Neo4j在圖數(shù)據(jù)庫(kù)領(lǐng)域長(zhǎng)期占據(jù)主導(dǎo)地位。因此,本文使用Neo4j圖數(shù)據(jù)庫(kù)存儲(chǔ)三稀礦產(chǎn)知識(shí)抽取后的三元組,并將Neo4j圖數(shù)據(jù)庫(kù)作為三稀礦產(chǎn)知識(shí)圖譜可視化的基礎(chǔ)平臺(tái)。在圖數(shù)據(jù)庫(kù)中,將三稀礦產(chǎn)概念、實(shí)體、屬性轉(zhuǎn)化為節(jié)點(diǎn),將不同三稀礦產(chǎn)實(shí)體與各屬性之間的關(guān)聯(lián)和三稀礦產(chǎn)實(shí)體之間的關(guān)聯(lián)轉(zhuǎn)化為邊,以結(jié)構(gòu)化三元組的形式存儲(chǔ)海量礦產(chǎn)資源相關(guān)數(shù)據(jù)中的知識(shí)(圖6(a))。
圖6 三稀礦產(chǎn)知識(shí)圖譜功能Fig. 6 Function of knowledge graph of the three types of rare mineral
可視化界面中的節(jié)點(diǎn)顏色代表了知識(shí)體系中不同層級(jí)的知識(shí),利用圖數(shù)據(jù)庫(kù)的查詢功能,查詢“內(nèi)蒙古自治區(qū)”節(jié)點(diǎn)的所有聯(lián)系節(jié)點(diǎn)和關(guān)系,輸入“match (n:所處省份)-[]- (m) where n.name='內(nèi)蒙古自治區(qū)'return n,m”,可以直觀看到本數(shù)據(jù)庫(kù)里內(nèi)蒙古自治區(qū)內(nèi)所有礦床、礦區(qū),以及與礦床、礦區(qū)相關(guān)聯(lián)的三稀礦產(chǎn)實(shí)體如礦段、礦體,三稀礦產(chǎn)屬性如礦床類型、所在地名、伴生礦產(chǎn)等節(jié)點(diǎn)和邊(圖6(b));利用Neo4j的查詢功能,可以直觀地看到當(dāng)前數(shù)據(jù)庫(kù)里所包含的所有三稀礦產(chǎn)實(shí)體如礦區(qū)、礦床及其分布省份(圖6(c))。
在研究中,本文引入了知識(shí)工程中的知識(shí)獲取和知識(shí)表示技術(shù),以構(gòu)建三稀礦產(chǎn)領(lǐng)域的知識(shí)圖譜,并解決領(lǐng)域要素之間語(yǔ)義關(guān)聯(lián)關(guān)系表達(dá)不充分的問題。首先,本文對(duì)三稀礦產(chǎn)的知識(shí)體系進(jìn)行了梳理,并對(duì)概念、實(shí)體、關(guān)系和屬性進(jìn)行了建模,從而構(gòu)建了三稀礦產(chǎn)知識(shí)體系。在此基礎(chǔ)上,構(gòu)建了三稀礦產(chǎn)模型層。其次,本文建立了三稀礦產(chǎn)語(yǔ)料庫(kù),并使用深度學(xué)習(xí)方法訓(xùn)練了對(duì)三稀礦產(chǎn)語(yǔ)料敏感的模型。通過該模型,本文從非結(jié)構(gòu)化數(shù)據(jù)中提取了三稀礦產(chǎn)知識(shí),構(gòu)建了三稀礦產(chǎn)數(shù)據(jù)層。最后,本文將提取的三元組存儲(chǔ)在圖數(shù)據(jù)庫(kù)中,并利用知識(shí)表示技術(shù)存儲(chǔ)和管理三稀礦產(chǎn)知識(shí),實(shí)現(xiàn)了三稀礦產(chǎn)知識(shí)圖譜的查詢和檢索功能。結(jié)合知識(shí)抽取功能,為地質(zhì)勘查工作中的礦產(chǎn)資源識(shí)別、管理和找礦精度提供了支持。
本文構(gòu)建的三稀礦產(chǎn)知識(shí)圖譜為該領(lǐng)域提供了一個(gè)應(yīng)用范例,并為基于知識(shí)圖譜的地學(xué)知識(shí)推理、礦產(chǎn)資源管理與評(píng)估、找礦預(yù)測(cè)與勘探規(guī)劃、環(huán)境保護(hù)和可持續(xù)開發(fā)等后續(xù)應(yīng)用提供了底層平臺(tái)支持。
對(duì)三稀礦產(chǎn)知識(shí)圖譜的研究還大有可為,就語(yǔ)料庫(kù)方面來看,當(dāng)前的知識(shí)圖譜包含的三稀礦產(chǎn)知識(shí)還不是特別豐富,因此,后續(xù)需要擴(kuò)充三稀礦產(chǎn)語(yǔ)料庫(kù)的內(nèi)容和數(shù)據(jù)種類,補(bǔ)全三稀礦產(chǎn)知識(shí)圖譜,提升知識(shí)抽取模型對(duì)復(fù)雜詞匯的邊界敏感度,提高實(shí)體抽取和語(yǔ)義關(guān)系抽取的準(zhǔn)確率;而在知識(shí)抽取方面需要結(jié)合自然語(yǔ)言處理學(xué)科在諸如命名實(shí)體識(shí)別、關(guān)系抽取等領(lǐng)域的前沿模型,根據(jù)地球科學(xué)大數(shù)據(jù)特征,構(gòu)建高質(zhì)量的知識(shí)轉(zhuǎn)換體系,并將本文知識(shí)圖譜構(gòu)建流程應(yīng)用于其他類型礦床,形成多模態(tài)、多種類的知識(shí)圖譜集合,為找礦提供支持,為未來地球科學(xué)全領(lǐng)域知識(shí)圖譜的構(gòu)建提供基礎(chǔ)。