陳忠良, 袁峰,李曉暉, 張明明合肥工業(yè)大學(xué)資源與環(huán)境工程學(xué)院,合肥, 230009;2)安徽省地質(zhì)調(diào)查院,合肥, 230001
內(nèi)容提要: 地質(zhì)調(diào)查正在從“數(shù)字化”走向“智能化”,需要在大數(shù)據(jù)思維的指導(dǎo)下,面向非結(jié)構(gòu)化數(shù)據(jù)開展機(jī)器閱讀和地質(zhì)知識(shí)的自動(dòng)提取。地學(xué)命名實(shí)體和關(guān)系聯(lián)合提取是當(dāng)前研究的難點(diǎn)和核心。本文采用基于大規(guī)模預(yù)訓(xùn)練中文語言模型的BERT—BiLSTM—CRF方法開展巖石描述文本命名實(shí)體與關(guān)系聯(lián)合提取。首先,通過收集數(shù)字地質(zhì)填圖工作中的剖面測(cè)量和路線地質(zhì)觀測(cè)數(shù)據(jù),建立巖石描述語料;然后,在巖石學(xué)理論指導(dǎo)下分析巖石知識(shí)組成,完成巖石知識(shí)圖譜命名實(shí)體與關(guān)系的模式設(shè)計(jì),標(biāo)注巖石語料;最后,開展巖石描述語料知識(shí)提取的深度學(xué)習(xí)訓(xùn)練和消融試驗(yàn)對(duì)比。試驗(yàn)結(jié)果顯示,大規(guī)模預(yù)訓(xùn)練中文語言模型(BERT)對(duì)巖石描述語料知識(shí)提取具有較高的適用性。推薦的BERT—BiLSTM—CRF模型方法對(duì)巖石命名實(shí)體與關(guān)系聯(lián)合提取的準(zhǔn)確率(F1值)為91.75%,對(duì)巖石命名實(shí)體識(shí)別的準(zhǔn)確率(F1值)為97.38%。消融試驗(yàn)證明基于BERT的詞嵌入層對(duì)巖石描述知識(shí)提取的性能提升影響顯著,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型層(BiLSTM Layer)能提升實(shí)體關(guān)系聯(lián)合提取性能。
隨著大數(shù)據(jù)思維和人工智能技術(shù)在地學(xué)研究中的不斷應(yīng)用(周國(guó)玉等,2020;黃敬軍等;2020;劉傳正和陳春利,2020;周永章等,2021a),基于自然語言處理技術(shù)的機(jī)器閱讀技術(shù)(Peters et al., 2014;蔣璟鑫等,2020)和地學(xué)領(lǐng)域知識(shí)提取技術(shù)(Abu-Salih, 2021;周永章等,2021b)也越來越受到地學(xué)研究者的關(guān)注。
在地學(xué)領(lǐng)域,針對(duì)文獻(xiàn)的機(jī)器閱讀技術(shù)(Geodeepdive)較早應(yīng)用于以沉積學(xué)為主的地質(zhì)數(shù)據(jù)庫(kù)(Macrostrat;Peters et al., 2014)。在疊層石的時(shí)空分布研究中,機(jī)器閱讀技術(shù)成功從文獻(xiàn)中智能提取了疊層石詞匯及其所處巖石地層名稱(Peters et al., 2017)。對(duì)于非結(jié)構(gòu)化的中文地學(xué)文獻(xiàn),學(xué)者開展了基于中文分詞和詞頻統(tǒng)計(jì)的文獻(xiàn)關(guān)鍵字提取,采用知識(shí)圖譜的圖方式展示了文獻(xiàn)的內(nèi)蘊(yùn)信息(Zhu Yueqin et al., 2017;Wang Chengbin et al., 2018)?;谏疃葘W(xué)習(xí)的命名實(shí)體識(shí)別技術(shù)也被應(yīng)用于從文獻(xiàn)中提取信息構(gòu)建地質(zhì)災(zāi)害知識(shí)圖譜(Fan Runyu et al., 2019)。劉鵬等(2020)引入基于 BiLSTM—CRF 改進(jìn)的網(wǎng)格結(jié)構(gòu)模型 Lattice—LSTM 進(jìn)行了煤礦領(lǐng)域知識(shí)提取。周永章等(2021b)依據(jù)斑巖型銅礦床概念模型,開展華南欽州—杭州成礦帶內(nèi)典型礦床的知識(shí)獲取、標(biāo)注和提取。機(jī)器閱讀技術(shù)和地學(xué)領(lǐng)域知識(shí)提取技術(shù)關(guān)注的同為如何從非結(jié)構(gòu)化的數(shù)據(jù)(如文本)中提取出事實(shí)。在知識(shí)圖譜中事實(shí)既是知識(shí),是以實(shí)體及其關(guān)系組成的三元組(王萬良,2020;Ji Shaoxiong et al., 2021)。目前,在地學(xué)領(lǐng)域知識(shí)的自動(dòng)獲取和圖譜構(gòu)建的過程中,實(shí)體識(shí)別是其重要內(nèi)容,關(guān)系提取則是其中的難點(diǎn)和核心(齊浩等,2020;周永章等,2021b)。
當(dāng)前,地質(zhì)調(diào)查正在從“數(shù)字化”走向“智能化”( 李超嶺等,2015)。建設(shè)中的地質(zhì)調(diào)查智能空間以“需求+數(shù)據(jù)+知識(shí)+智能驅(qū)動(dòng)”理念為指導(dǎo),研發(fā)空間數(shù)據(jù)自適應(yīng)感知服務(wù)、非結(jié)構(gòu)化數(shù)據(jù)挖掘服務(wù)、地質(zhì)知識(shí)的流程化和智能化應(yīng)用等(李豐丹等,2019)。在非結(jié)構(gòu)化數(shù)據(jù)挖掘方面,現(xiàn)有智能空間平臺(tái)已開展基于位置和關(guān)鍵詞的地質(zhì)報(bào)告信息檢索技術(shù)研究,基于機(jī)器學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)挖掘工作是需要開展的研究?jī)?nèi)容(Wu Liang et al., 2017)。在地質(zhì)調(diào)查智能空間平臺(tái)中,巖石描述文本是除照片、地質(zhì)報(bào)告文檔外重要的非結(jié)構(gòu)化數(shù)據(jù)之一。當(dāng)前,基于機(jī)器學(xué)習(xí)的巖石和礦物智能識(shí)別研究正在逐漸深入(張野等,2018;徐述騰和周永章,2018;任偉等,2021),但針對(duì)巖石描述文本的機(jī)器閱讀和知識(shí)提取技術(shù)研究卻尚未開展。巖石描述文本與地質(zhì)報(bào)告的顯著區(qū)別是其短文本特點(diǎn),非常適合開展基于大規(guī)模預(yù)訓(xùn)練語言模型的深度學(xué)習(xí)。如BERT預(yù)訓(xùn)練語言模型的最大支持標(biāo)記序列為512個(gè)字詞(Devlin et al., 2018)。同時(shí),巖石描述文本中命名實(shí)體和關(guān)系明確,也有利于人工語料標(biāo)注并開展實(shí)體和關(guān)系的聯(lián)合提取。
本文針對(duì)地學(xué)領(lǐng)域知識(shí)的自動(dòng)獲取,特別是關(guān)系提取這一難點(diǎn)問題,以智能地質(zhì)調(diào)查空間中巖石描述這一短文本為研究對(duì)象,開展基于深度學(xué)習(xí)的巖石描述文本命名實(shí)體和關(guān)系聯(lián)合提取方法研究。分為:中文語料庫(kù)與詞嵌入技術(shù)、地學(xué)命名實(shí)體識(shí)別和關(guān)系提取的相關(guān)研究工作;巖石實(shí)體與關(guān)系的模式設(shè)計(jì)、巖石描述語料的收集和標(biāo)注以及基于BERT—BiLSTM—CRF模型的知識(shí)提取方法;試驗(yàn)結(jié)果和討論,開展了推薦模型方法的消融試驗(yàn),比較分析了模型中各部分對(duì)巖石知識(shí)提取性能的影響。
開展地學(xué)領(lǐng)域知識(shí)提取方法研究主要涉及:① 中文地學(xué)語料庫(kù)與地學(xué)領(lǐng)域詞嵌入技術(shù); ② 地學(xué)命名實(shí)體識(shí)別與關(guān)系提取。
向量是理解和表示文本數(shù)據(jù)的數(shù)學(xué)方法。詞嵌入技術(shù)(Word Embeddings),是將文本的每個(gè)字(單詞)封裝成向量表述的一種技術(shù),是機(jī)器學(xué)習(xí)算法開展自然語言處理的基礎(chǔ)。當(dāng)前,地學(xué)領(lǐng)域詞嵌入技術(shù)主要有GeoVec,其與通用詞嵌入技術(shù)相比,在多項(xiàng)地學(xué)英文語言處理任務(wù)中取得了更好的效果(Padarian and Fuentes, 2019; Fuentes et al., 2020)。然而,地學(xué)領(lǐng)域中文語料庫(kù)和中文地學(xué)領(lǐng)域詞嵌入技術(shù)卻相對(duì)匱乏。由于本次以中文地學(xué)知識(shí)提取作為研究對(duì)象,在地學(xué)領(lǐng)域詞嵌入技術(shù)缺乏的情況,通用中文詞嵌入技術(shù)成為可選方案,如Word2Vec(Mikolov et al., 2013)、BERT(Devlin et al., 2018)等。特別是后者作為一個(gè)Word2Vec的替代者,在自然語言處理領(lǐng)域的多個(gè)方向大幅刷新了精度。通用中文詞嵌入技術(shù)在地學(xué)知識(shí)提取中的應(yīng)用效果成為本次研究的內(nèi)容之一。
目前地學(xué)領(lǐng)域命名實(shí)體識(shí)別主要有基于詞典及規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。對(duì)于非結(jié)構(gòu)化的中文地學(xué)文獻(xiàn),學(xué)者開展了基于擴(kuò)展地質(zhì)詞典及規(guī)則的地質(zhì)知識(shí)提取(Zhu Yueqin et al., 2017)。而傳統(tǒng)的機(jī)器學(xué)習(xí)方法應(yīng)用于地學(xué)命名實(shí)體提取的主要為條件隨機(jī)場(chǎng)模型(CRF)。Wang Chengbin 等(2018)基于地質(zhì)詞典采用CRF模型開展了地學(xué)文獻(xiàn)的中文分詞和詞頻統(tǒng)計(jì)。條件隨機(jī)場(chǎng)模型對(duì)災(zāi)害領(lǐng)域命名實(shí)體提取實(shí)現(xiàn)F1值72.55%的識(shí)別結(jié)果(杜志強(qiáng)等,2020)。近年,深度學(xué)習(xí)方法提取特征逐漸成為主流(周永章等,2018),如DBN、BiLSTM—CRF、Lattice—LSTM、BiGRU—CRF、ELMO—CNN—BiLSTM—CRF模型等。DBN模型在小規(guī)模礦產(chǎn)資源地質(zhì)調(diào)查報(bào)告語料的地質(zhì)實(shí)體識(shí)別評(píng)估中,各項(xiàng)評(píng)估指標(biāo)(P,R,F(xiàn)1)均取得了90%以上(張雪英等,2018)。BiLSTM—CRF 模型及其改進(jìn)的Lattice—LSTM模型對(duì)煤礦領(lǐng)域命名實(shí)體分別取得了F1值91.94%和94.04%的識(shí)別結(jié)果(劉鵬等,2020)。BiGRU—CRF模型對(duì)地質(zhì)災(zāi)害命名實(shí)體識(shí)別也取得了F1值94.19的識(shí)別結(jié)果(Fan Runyu et al., 2019)。
基于深度學(xué)習(xí)的方法對(duì)地學(xué)命名實(shí)體識(shí)別展現(xiàn)了較好的識(shí)別效果,但地學(xué)命名實(shí)體與關(guān)系聯(lián)合提取目前工作開展較少。隨著大規(guī)模預(yù)訓(xùn)練語言模型BERT在自然語言處理領(lǐng)域眾多任務(wù)中取得最優(yōu)結(jié)果(Devlin et al., 2018),其對(duì)地學(xué)數(shù)據(jù)集的命名實(shí)體識(shí)別特別是實(shí)體與關(guān)系的聯(lián)合提取的適應(yīng)性研究尚未開展。
巖石觀察和描述的內(nèi)容一般包括顏色、構(gòu)造、結(jié)構(gòu)、礦物成分的種類和含量,以及依據(jù)巖石的分類命名原則對(duì)巖石命名。巖石知識(shí)圖譜是節(jié)點(diǎn)和邊(有向邊)組成的知識(shí)三元組表現(xiàn)形式。節(jié)點(diǎn),即實(shí)體,內(nèi)容包含巖石、地層代號(hào)、顏色、結(jié)構(gòu)、構(gòu)造、礦物、第四紀(jì)沉積物、接觸關(guān)系等。邊,即關(guān)系,是各節(jié)點(diǎn)之間廣泛的知識(shí)關(guān)聯(lián),如主要礦物、次要礦物、新鮮色、風(fēng)化色等。圖1為巖石知識(shí)命名實(shí)體與關(guān)系的模式設(shè)計(jì)元圖。接觸關(guān)系為巖石之間的接觸關(guān)系,多為巖石描述語句之外單獨(dú)語句描述。本次考慮描述語句字?jǐn)?shù)限制,暫對(duì)接觸關(guān)系描述語句只做命名實(shí)體設(shè)計(jì)。
圖1 巖石知識(shí)圖譜命名實(shí)體與關(guān)系的模式設(shè)計(jì)元圖Fig. 1 Meta-graph for named entities and relations of the domain—specific knowledge graph of petrology
巖石知識(shí)來源眾多,可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。其中,非結(jié)構(gòu)化數(shù)據(jù)以巖石學(xué)文獻(xiàn)和巖石描述文本為主,是巖石知識(shí)提取的主要研究對(duì)象之一。特別是巖石描述文本,其是數(shù)字填圖系統(tǒng)和研發(fā)中的智能地質(zhì)調(diào)查系統(tǒng)(李超嶺等,2015;李豐丹等,2019)野外采集人員輸入的主要數(shù)據(jù),成為了本次巖石知識(shí)提取的主要語料資源。本次巖石描述文本所描述的巖石類型涵蓋了巖漿巖、沉積巖、變質(zhì)巖和第四紀(jì)沉積物。
巖石描述語料標(biāo)注為“BIO+命名實(shí)體”方式。其中,B代表命名實(shí)體片段的開始;I代表實(shí)體片段的中間;O代表字符不為任何實(shí)體。由于巖石描述多為圍繞某種巖石或第四紀(jì)沉積物展開,本次巖石描述語料中的實(shí)體關(guān)系同樣采用“BIO+關(guān)系”的標(biāo)注方式。標(biāo)注工具采用開源的BRAT(Stenetorp et al., 2012)。采用這種方式,實(shí)體與關(guān)系聯(lián)合提取任務(wù)將轉(zhuǎn)換成序列標(biāo)注任務(wù)。圖2為巖石描述語料命名實(shí)體和關(guān)系標(biāo)注示例。對(duì)于“風(fēng)化色”這一“巖石”與“顏色”命名實(shí)體間的關(guān)系,一般巖石描述中均在顏色實(shí)體前有“風(fēng)化”字詞,具有一定的前后文語義特征。其它實(shí)體關(guān)系,如主要礦物、次要礦物等,均具有類似的前后文語義特征。
圖2 巖石描述語料命名實(shí)體和關(guān)系標(biāo)注示例Fig. 2 A example for the annotations of the named entities and relations on lithological description corpus
最終選取了300個(gè)地質(zhì)點(diǎn)的巖石描述開展了標(biāo)注工作。BIO標(biāo)注語料771個(gè)句子。為了測(cè)試命名實(shí)體識(shí)別和實(shí)體與關(guān)系聯(lián)合提取的差異,本次對(duì)語料分為兩個(gè)版本,V1版為只標(biāo)注巖石命名實(shí)體,V2版則是巖石命名實(shí)體與關(guān)系同步標(biāo)注。兩版語料均以8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。V1版巖石命名實(shí)體提取語料共標(biāo)記771個(gè)句子。其中,629個(gè)句子訓(xùn)練集,66個(gè)句子驗(yàn)證集,76個(gè)句子測(cè)試集。V2版巖石命名實(shí)體與關(guān)系聯(lián)合提取語料同樣標(biāo)記771個(gè)句子。其中,620個(gè)句子訓(xùn)練集,73個(gè)句子驗(yàn)證集,78個(gè)句子測(cè)試集。
本次采用基于大規(guī)模預(yù)訓(xùn)練中文語言模型的BERT—BiLSTM—CRF模型開展巖石描述文本命名實(shí)體與關(guān)系聯(lián)合提取。模型結(jié)構(gòu)如圖3所示。主要包含基于BERT的詞嵌入層(BERT-Embedding Layer),雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型層(BiLSTM Layer)和條件隨機(jī)場(chǎng)模型層(CRF Layer)。
圖3 BERT—BiLSTM—CRF模型結(jié)構(gòu)示意圖Fig. 3 The schematic diagram of the BERT—BiLSTM—CRF model architecture
基于BERT的詞嵌入層,首先利用基于大規(guī)模中文語料預(yù)訓(xùn)練BERT中文語言模型輸出的字典文件,將輸入的巖石描述語句逐字映射轉(zhuǎn)換為字符編碼。然后字符編碼進(jìn)入預(yù)訓(xùn)練參數(shù)初始化的BERT模型層轉(zhuǎn)換為詞向量輸出。本層主要學(xué)習(xí)輸入的巖石描述語句中每個(gè)字和符號(hào)到對(duì)應(yīng)的巖石命名實(shí)體和關(guān)系標(biāo)簽的規(guī)律(Devlin et al., 2018)。
雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型層由一個(gè)正向和一個(gè)反向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)組成。該層主要學(xué)習(xí)巖石描述語句的上下文信息(劉鵬等,2020)。本層輸出為巖石語句中每一個(gè)字屬于不同巖石命名實(shí)體和關(guān)系的概率。
條件隨機(jī)場(chǎng)模型層則是學(xué)習(xí)巖石描述句子中相鄰巖石命名實(shí)體和關(guān)系標(biāo)簽之間的轉(zhuǎn)移規(guī)則(Wang Chengbin et al., 2018),如“B—巖石”為巖石實(shí)體的開頭,一般后面會(huì)是“I—巖石”。句子的開頭應(yīng)為“B—”或“O—”?!?I—”只出現(xiàn)在句中和句尾。轉(zhuǎn)移規(guī)律的學(xué)習(xí)能夠提高預(yù)測(cè)的準(zhǔn)確度。
模型訓(xùn)練實(shí)驗(yàn)均在配置有Quadro P3200顯卡的移動(dòng)工作站上完成。機(jī)器學(xué)習(xí)平臺(tái)采用Tensorflow-gpu 1.13.1。模型訓(xùn)練參數(shù)見表1所示。批處理尺寸為2。輸入語句最大長(zhǎng)度設(shè)定為500(實(shí)際語料句子最大長(zhǎng)度為424)。LSTM 模型的隱藏層神經(jīng)元數(shù)量設(shè)置為 128。詞向量大小設(shè)置為 768。模型訓(xùn)練參數(shù)中,編譯優(yōu)化器選擇Ruder(2016)推薦的Adam自適應(yīng)優(yōu)化器,初始學(xué)習(xí)率為0.00002,Dropout設(shè)置為0.5。
表1 BERT—BiLSTM—CRF模型訓(xùn)練參數(shù)Table 1 The experiment settings for the training of the BERT—BiLSTM—CRF model
試驗(yàn)結(jié)果評(píng)估指標(biāo)采用(Goutte and Gaussier, 2005)定義的三個(gè)測(cè)試指標(biāo):查準(zhǔn)率(precision,P)、召回率(recall,R)和F1值。根據(jù)模型在測(cè)試集上的預(yù)測(cè)結(jié)果,其中TP為能正確識(shí)別巖石命名實(shí)體和關(guān)系標(biāo)簽的個(gè)數(shù)、FP為能識(shí)別出巖石命名實(shí)體和關(guān)系但標(biāo)簽類別判定出現(xiàn)錯(cuò)誤的個(gè)數(shù)、FN為應(yīng)該但沒被識(shí)別的巖石命名實(shí)體和關(guān)系個(gè)數(shù)。按照公式(1~3)可以得到P、R和F1(β=1)值。
(1)
(2)
(3)
BERT—BiLSTM—CRF模型在V2版語料上,訓(xùn)練集損失函數(shù)loss值和驗(yàn)證集損失函數(shù)loss值均逐漸減小,趨于收斂,未見明顯過擬合(圖4a)。訓(xùn)練后的模型在測(cè)試集上查準(zhǔn)率P為91.83%,召回率R為91.67%,F(xiàn)1值為91.75%(表4),表現(xiàn)出較好的實(shí)體和關(guān)系聯(lián)合提取效果。表2為BERT—BiLSTM—CRF模型在V2版語料上對(duì)主要巖石關(guān)系的分項(xiàng)提取準(zhǔn)確率。在“沉積物顏色”、“新鮮色”、“所具結(jié)構(gòu)”、“所具構(gòu)造”、“主要礦物”等關(guān)系提取方面均實(shí)現(xiàn)了超過95%的F1值。在“基質(zhì)與膠結(jié)物成分”、“斑晶成分”、“生物碎屑成分”等關(guān)系提取方面F1值均低于80%,明顯效果不理想。這些巖石與礦物之間的關(guān)系多存在于斑狀結(jié)構(gòu)、陸源碎屑結(jié)構(gòu)和粒屑結(jié)構(gòu)的巖石描述之中。
圖4 BERT—BiLSTM—CRF模型損失函數(shù)訓(xùn)練曲線: (a)V2版語料訓(xùn)練曲線;(b)V1版語料訓(xùn)練曲線Fig. 4 Training loss curves of the BERT—BiLSTM—CRF model: (a) training loss curves on the second version corpus; (b) training loss curves on the first version corpus
表2 BERT—BiLSTM—CRF模型在V2版語料上對(duì)主要巖石關(guān)系的分項(xiàng)提取準(zhǔn)確率Table 2 Performance of the proposed BERT—BiLSTM—CRF model which was used to extract the major relations from the second version corpus
表4 不同模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果
為了與復(fù)雜的關(guān)系提取做對(duì)比,本次對(duì)BERT—BiLSTM—CRF模型在V1版語料上進(jìn)行了主要巖石命名實(shí)體的識(shí)別試驗(yàn)。訓(xùn)練集損失函數(shù)loss值和驗(yàn)證集損失函數(shù)loss值同樣逐漸減小,趨于收斂,未見明顯過擬合(圖4b)。訓(xùn)練后的模型在測(cè)試集上查準(zhǔn)率P為96.79%,召回率R為97.97%,F(xiàn)1值為97.38%。表3為BERT—BiLSTM—CRF模型在V1版語料上對(duì)主要巖石命名實(shí)體的分項(xiàng)提取準(zhǔn)確率結(jié)果。所有命名實(shí)體均取得了超過95%的F1值,說明BERT—BiLSTM—CRF模型對(duì)現(xiàn)有語料中巖石命名實(shí)體表現(xiàn)出非常好的識(shí)別效果。也進(jìn)一步說明模型是對(duì)復(fù)雜的巖石物質(zhì)成分描述知識(shí)的提取仍然存在不足。
為了檢驗(yàn)BERT—BiLSTM—CRF模型中不同部分的作用,本次還開展了針對(duì)本文所提模型方法的消融試驗(yàn)。消融試驗(yàn)分別去掉雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型層(BiLSTM Layer)和基于BERT的詞嵌入層(BERT—Embedding Layer),在V1版和V2版數(shù)據(jù)集上執(zhí)行BiLSTM—CRF模型和BERT—CRF模型的實(shí)體識(shí)別和巖石命名實(shí)體與關(guān)系聯(lián)合提取任務(wù)。消融試驗(yàn)中的3 種模型的性能對(duì)比見表4所示。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型層(BiLSTM Layer)的去除對(duì)V2數(shù)據(jù)集上的實(shí)體關(guān)系聯(lián)合提取任務(wù)性能稍有影響,F(xiàn)1值從91.75%降低到89.45%。但該層的刪除對(duì)V1版數(shù)據(jù)集上的實(shí)體識(shí)別任務(wù)性能影響不大。去除基于BERT的詞嵌入層后的BiLSTM—CRF模型在兩項(xiàng)任務(wù)性能上均明顯降低,說明此層非常重要。由此可推斷,在小規(guī)模的地學(xué)語料庫(kù)上,模型中加入大規(guī)模預(yù)訓(xùn)練中文語言模型BERT,能夠豐富詞向量語義,更好的學(xué)習(xí)巖石描述語句中每個(gè)字和符號(hào)到對(duì)應(yīng)的巖石命名實(shí)體和關(guān)系標(biāo)簽的規(guī)律,可以很好的提升模型的性能。
地質(zhì)調(diào)查正在從“數(shù)字化”走向“智能化”,需要在大數(shù)據(jù)思維的指導(dǎo)下,面向非結(jié)構(gòu)化數(shù)據(jù)開展機(jī)器閱讀和地質(zhì)知識(shí)的自動(dòng)提取。在地質(zhì)調(diào)查智能空間平臺(tái)中,巖石描述文本是除照片、地質(zhì)報(bào)告文檔外重要的非結(jié)構(gòu)化數(shù)據(jù)之一。巖石描述文本中巖石命名實(shí)體的識(shí)別,特別是關(guān)系提取是本次的研究對(duì)象。由于中文地學(xué)領(lǐng)域詞嵌入技術(shù)尚未發(fā)布,本文采用通用中文詞嵌入技術(shù),針對(duì)中文巖石描述語料,開展了基于大規(guī)模預(yù)訓(xùn)練中文語言模型BERT—BiLSTM—CRF方法的巖石領(lǐng)域命名實(shí)體識(shí)別以及實(shí)體與關(guān)系聯(lián)合提取試驗(yàn)研究。試驗(yàn)結(jié)果顯示,大規(guī)模預(yù)訓(xùn)練中文語言模型(BERT)對(duì)巖石語料知識(shí)提取具有較高的適用性,特別是針對(duì)巖石描述語料中巖石命名實(shí)體提取表現(xiàn)出了較好的識(shí)別效果。
由于BERT—BiLSTM—CRF模型在斑狀結(jié)構(gòu)、陸源碎屑結(jié)構(gòu)和粒屑結(jié)構(gòu)的巖石描述命名實(shí)體和關(guān)系的聯(lián)合提取任務(wù)上表現(xiàn)出不足,同時(shí)模型在單一命名實(shí)體識(shí)別任務(wù)上的良好性能,后續(xù)需要繼續(xù)開展基于流水線模式的實(shí)體與關(guān)系聯(lián)合提取研究,并與聯(lián)合模型方法開展對(duì)比。巖石描述標(biāo)注語料庫(kù)的數(shù)據(jù)規(guī)模也需要后續(xù)進(jìn)一步提升。大規(guī)模中文地學(xué)語料庫(kù)的欠缺制約著地學(xué)領(lǐng)域中文詞向量技術(shù)的開發(fā)。共建共享中文地學(xué)語料庫(kù)也是行業(yè)內(nèi)研究者與管理者需要積極推動(dòng)的工作方向之一。
致謝:感謝審稿專家周永章教授和責(zé)任編輯章雨旭研究員提出的寶貴修改意見。感謝安徽省地質(zhì)調(diào)查院王翔高級(jí)工程師、吳衡高級(jí)工程師、鄧佳良高級(jí)工程師和黃蒙高級(jí)工程師在巖石描述語料收集和標(biāo)注工作中提供的大力幫助。
(The literature whose publishing year followed by a “&” is in Chinese with English abstract; The literature whose publishing year followed by a “#” is in Chinese without English abstract)
杜志強(qiáng),李鈺,張葉廷,譚玉琪,趙文豪. 2020. 自然災(zāi)害應(yīng)急知識(shí)圖譜構(gòu)建方法研究. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 45(9):1344~1355.
黃敬軍,趙增玉,姜素,楊磊,高立,許書剛.2020.自然資源管理視角下江蘇城市地質(zhì)調(diào)查工作新思考. 地質(zhì)論評(píng),66(6):1609~1618.
蔣璟鑫,李超,胡修棉.2020.沉積學(xué)數(shù)據(jù)庫(kù)建設(shè)與沉積大數(shù)據(jù)科學(xué)研究進(jìn)展:以Macrostrat數(shù)據(jù)庫(kù)為例. 高校地質(zhì)學(xué)報(bào),26(1):27~43.
李超嶺,李豐丹,呂霞,李健強(qiáng),劉暢,劉園園.2015.地質(zhì)調(diào)查智能空間體系與架構(gòu). 測(cè)繪學(xué)報(bào),44(增刊1):143~151,159.
李豐丹,劉暢,劉園園,呂霞.2019.地質(zhì)調(diào)查智能空間框架構(gòu)建與實(shí)踐. 地質(zhì)論評(píng),65(增刊1):317~320.
齊浩,董少春,張麗麗,胡歡,樊雋軒.2020.地球科學(xué)知識(shí)圖譜的構(gòu)建與展望. 高校地質(zhì)學(xué)報(bào),26(1):2~10.
劉傳正,陳春利.2020.中國(guó)地質(zhì)災(zāi)害成因分析. 地質(zhì)論評(píng),66(5):1334~1348.
劉鵬,葉帥,舒雅,鹿曉龍,劉明明.2020.煤礦安全知識(shí)圖譜構(gòu)建及智能查詢方法研究. 中文信息學(xué)報(bào),34(11):49~59.
任偉,張盛,喬計(jì)花,黃金明.2021.基于深度學(xué)習(xí)的巖石礦物智能識(shí)別. 地質(zhì)論評(píng),67(增刊1):281~282.
王萬良.2020.人工智能及其應(yīng)用(第4版). 北京:高等教育出版社:1~66.
徐述騰,周永章.2018.基于深度學(xué)習(xí)的鏡下礦石礦物的智能識(shí)別實(shí)驗(yàn)研究. 巖石學(xué)報(bào),34(11):3244~3252.
張雪英,葉鵬,王曙,杜咪.2018.基于深度信念網(wǎng)絡(luò)的地質(zhì)實(shí)體識(shí)別方法. 巖石學(xué)報(bào),34(2):343~351.
張野,李明超,韓帥.2018.基于巖石圖像深度學(xué)習(xí)的巖性自動(dòng)識(shí)別與分類方法. 巖石學(xué)報(bào),34(2):333~342.
周國(guó)玉,張明明,沈樂,張淑虹,袁峰,李曉暉,季斌,周宇章.2020.銅陵礦集區(qū)姚家?guī)X鋅金多金屬礦床深部地質(zhì)空間信息相關(guān)性數(shù)據(jù)挖掘. 大地構(gòu)造與成礦學(xué),44(2):242~250.
周永章,王俊,左仁廣,肖凡,沈文杰,王樹功.2018.地質(zhì)領(lǐng)域機(jī)器學(xué)習(xí)、深度學(xué)習(xí)及實(shí)現(xiàn)語言. 巖石學(xué)報(bào),34(11):3173~3178.
周永章,左仁廣,劉剛,袁峰,毛先成,郭艷軍,肖凡,廖杰,劉艷鵬.2021a.?dāng)?shù)學(xué)地球科學(xué)跨越發(fā)展的十年:大數(shù)據(jù)、人工智能算法正在改變地質(zhì)學(xué). 礦物巖石地球化學(xué)通報(bào),40(3):556~573,777.
周永章,張前龍,黃永健,楊威,肖凡,吉俊杰,韓楓,唐磊,歐陽沖,沈文杰.2021b.欽杭成礦帶斑巖銅礦知識(shí)圖譜構(gòu)建及應(yīng)用展望. 地學(xué)前緣,28(3):67~75.
Abu-Salih B. 2021. Domain—specific knowledge graphs: A survey[J][OL]. Journal of Network and Computer Applications, 185: 103076; https://doi.org/https://doi.org/10.1016/j.jnca.2021.103076
Devlin J, Chang Mingwei, Lee K, Toutanova K. 2018. BERT: Pre-training of deep bidirectional transformers for language understanding[OL]. Retrieved from http://arxiv.org/abs/1810.04805.
Du Zhiqiang, Li Yu Zhang Yeting, Tan Yuqi, Zhao Wenhao. 2020&. Knowledge graph construction method on natural disaster emergency. Geomatics and Information Science of Wuhan University, 45(9):1344~1355.
Fan Runyu, Wang Lizhe, Yan Jining, Song Weijing, Zhu Yingqian, Chen Xiaodao. 2019. Deep learning-based named entity recognition and knowledge graph construction for geological hazards[J][OL]. ISPRS international Journal of Geo-Information, 9(1); https://doi.org/10.3390/ijgi9010015.
Fuentes I, Padarian J, Iwanaga T, Willem Vervoort R. 2020. 3D lithological mapping of borehole descriptions using word embeddings[J][OL]. Computers & Geosciences, 141: 104516; https://doi.org/https://doi.org/10.1016/j.cageo.2020.104516.
Goutte C, Gaussier E. 2005. A probabilistic interpretation of precision, recall and F-score, with implication for evaluation. In: Losada D E, Fernández-Luna J M. eds. Advances in Information Retrieval. ECIR 2005. Lecture Notes in Computer Science, vol 3408. Berlin: Springer; https://doi.org/10.1007/978-3-540-31865-1_25.
Huang Jingjun, Zhao Zengyu, Jiang Su, Yang Lei, Gao Li, Xu Shugang. 2020&. New thoughts on urban geological survey concerning natural resource management in Jiangsu Province. Geological Review, 66(6): 1609~1618.
Ji Shaoxiong, Pan Shirui, Cambria E, Marttinen P, Yu P S. 2021. A survey on knowledge graphs: Representation, acquisition, and applications[J〗[OL]. IEEE Transactions on Neural Networks and Learning Systems: 1~21; https://doi.org/10.1109/TNNLS.2021.3070843.
Jiang Jingxin, Li Chao, Hu Xiumian. 2020&. Advances on sedimentary database building and related research: Macrostrat as an example. Geological Journal of China Universities, 26(1): 27~43.
Li Chaoling, Li Fengdan, Lü Xia, Li Jianqiang, Liu Chang, Liu Yuanyuan. 2015&. The architecture of geological survey intelligent space. Acta Geodaetica et Cartographica Sinica, 44(S1): 143~151; 159.
Li Fengdan, Liu Chang, Liu Yuanyuan, Lü Xia. 2019#. Construction and application of the geological survey intelligent space. Geological Review, 65(S1): 317~320.
Liu Chuanzheng, Chen Chunli. 2020&. Research on the origins of geological disasters in China. Geological Review, 66(5): 1334~1348.
Liu Peng, Ye Shuai, Shu Ya, Lu Xiaolong, Liu Minging. 2020&. Coalmine safety: Knowledge graph construction and its QA approach. Journal of Chinese Information Processing, 34(11): 49~59.
Mikolov T, Chen Kai, Corrado G, Dean J. 2013. Efficient sstimation of word representations in vector space. In ICLR.
Padarian J, Fuentes I. 2019. Word embeddings for application in geosciences: Development, evaluation, and examples of soil-related concepts[J][OL]. Soil, 5(2): 177~187; https://doi.org/10.5194/soil-5-177-2019.
Peters S E, Zhang Ce, Livny M, Ré C. 2014. A machine reading system for assembling synthetic paleontological databases[J][OL]. Plos One, 9(12): e113523; https://doi.org/10.1371/journal.pone.0113523
Peters S E, Husson J M, Wilcots J. 2017. The rise and fall of stromatolites in shallow marine environments[J][OL]. Geology, 45(6): 487~490; https://doi.org/10.1130/G38931.1.
Qi Hao, Dong Shaochun, Zhang Lili, Hu Huan, Fan Junxuan. 2020&. Construction of earth science knowledge graph and its future perspectives. Geological Journal of China Universities, 26(1): 2~10.
Ren Wei, Zhang Sheng, Qiao Jihua, Huang Jinming. 2021. The rock and mineral intelligence identification method based on deep learning. Geological Review, 67(S1): 281~282.
Ruder S. 2016. An overview of gradient descent optimization algorithms[OL]. Retrieved from http://arxiv.org/abs/1609.04747.
Stenetorp P, Pyysalo S, Topíc G, Ohta T, Ananiadou S, Tsujii J. 2012. BRAT: A web-based tool for NLP-assisted text annotation. In: EACL 2012 - Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics: 102~107.
Wang Chengbin, Ma Xiaogang, Chen Jianguo, Chen Jingwen. 2018. Information extraction and knowledge graph construction from geoscience literature[J][OL]. Computers and Geosciences, 112: 112~120; https://doi.org/10.1016/j.cageo.2017.12.007.
Wang Wanliang. 2020#. Artificial Intelligence (4th edition). Beijing: Higher Education Press: 1~66.
Wu Liang, Xue Lei, Li Chaoling, Lv Xia, Chen Zhanlong, Jiang Baode, Guo Mingqiang, Xie Zhong. 2017. A knowledge-driven geospatially enabled framework for geological big data[J][OL]. ISPRS International Journal of Geo-Information, 6(6); https://doi.org/10.3390/ijgi6060166.
Xu Shuteng, Zhou Yongzhang. 2018&. Artificial intelligence identification of ore minerals under microscope based on deep learningalgorithm. Acta Petrologica Sinica, 34(11): 3244~3252.
Zhang Xueying, Ye Peng, Wang Shu, Du Mi. 2018&. Geological entity recognition method based on deep belief networks. Acta Petrologica Sinica, 34(2): 343~351.
Zhang Ye, Li Mingchao, Han Shuai. 2018&. Automatic identification and classification in lithology based on deep learning in rock images. Acta Petrologica Sinica, 34(2): 333~342.
Zhou Guoyu, Zhang Mingming, Shen Le, Zhang Shuhong, Yuan Feng, Li Xiaohui, Ji Bin, Zhou Yuzhang. 2020&. Data mining of deep geological spatial information of the Yaojialing Zinc—gold polymetallic deposit. Geotectonica et Metallogenia, 44(2): 242~250.
Zhou Yongzhang, Wang Jun, Zuo Renguang, Xiao Fan, Shen Wenjie, Wang Shugong. 2018&. Machine learning, deep learning and python languagein field of geology. Acta Petrologica Sinica, 34(11): 3173~3178.
Zhou Yongzhang, Zuo Renguang, Liu Gang, Yuan Feng, Mao Xiancheng, Guo Yanjun, Xiao Fan, Liao Jie, Liu Yanpeng. 2021a&. The great-leap-forward development of mathematical geoscience during 2010~2019 : Big Data and Artificial Intelligence Algorithm are Changing Mathematical Geoscience. Bulletin of Mineralogy,Petrology and Geochemistry, 40(3): 556~573; 777.
Zhou Yongzhang, Zhang Qianlong, Huang Yongjian, Yang Wei, Xiao Fan, Ji Junjie, Han Feng, Tang Lei, Ouyang Chong, Shen Wenjie. 2021b&. Construction knowledge graph for the porphyry copper deposit in the Qingzhou—Hangzhou Bay area: Insight into knowledge graph based mineral resource prediction and evalution. Earth Science Frontiers (China University of Geosciences (Beijing); Peking University), 28(3): 67~75.
Zhu Yueqin, Zhou Wenwen, Xu Yang, Liu Ji, Tan Yongjie. 2017. Intelligent learning for knowledge graph towards geological data[J][OL]. Scientific Programming; https://doi.org/10.1155/2017/5072427.