亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)環(huán)境下的礦產(chǎn)知識庫構(gòu)建：以鎢礦為例

2018-09-20 05:24:10常力恒朱月琴汪新慶劉雨江

中國礦業(yè) 2018年9期

關(guān)鍵詞：成礦模型

常力恒，朱月琴，汪新慶，張旋，劉雨江，吳碩

(1.中國地質(zhì)大學(xué)(武漢)資源學(xué)院，湖北武漢 430074； 2.自然資源部地質(zhì)信息技術(shù)重點實驗室，北京 100037； 3.中國地質(zhì)調(diào)查局發(fā)展研究中心，北京 100037； 4.中國科學(xué)院大學(xué)，北京 100049；5.北京語言大學(xué)出版社，北京 100083)

1 大數(shù)據(jù)環(huán)境下地質(zhì)知識庫構(gòu)建面臨的機遇和挑戰(zhàn)

1.1 機遇

目前，隨著地質(zhì)資料信息化工作的推進，形成了大量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。地質(zhì)數(shù)據(jù)中非常重要的一部分是以文獻、報告等自然語言進行表示的。地質(zhì)文獻作為研究成果的高度總結(jié)，包含地質(zhì)過程發(fā)生的時間、空間、特征要素以及與周圍環(huán)境的相互作用、成因耦合等信息。因此，如何從這種泛結(jié)構(gòu)化的、模糊的、定性的海量地質(zhì)文獻報告中快速的提取數(shù)據(jù)，并以獲得的大樣本數(shù)據(jù)，綜合、分析、挖掘地質(zhì)資料中的潛在價值，更好的服務(wù)于地質(zhì)科學(xué)問題的研究是目前面臨的任務(wù)和機遇。物聯(lián)網(wǎng)、云計算、虛擬化等信息技術(shù)的發(fā)展以及多節(jié)點分布式的大數(shù)據(jù)平臺建設(shè)，為海量數(shù)據(jù)的高性能計算提供了條件。機器學(xué)習(xí)、深度學(xué)習(xí)、人工智能等技術(shù)的革新為地質(zhì)大數(shù)據(jù)的研究提供了方法。

2017年11月“地質(zhì)云”平臺發(fā)布，2018年2月《巖石學(xué)報》出版了“地質(zhì)大數(shù)據(jù)”專輯，2018年4月在廣州中山大學(xué)舉辦了“全國大數(shù)據(jù)與數(shù)學(xué)地球科學(xué)”學(xué)術(shù)研討會，2018年5月在杭州浙江大學(xué)舉辦了“大數(shù)據(jù)時代——地質(zhì)學(xué)的挑戰(zhàn)與機遇”學(xué)術(shù)研討會。應(yīng)用大數(shù)據(jù)的思維方法，開展數(shù)據(jù)的相關(guān)性分析，構(gòu)建地質(zhì)知識庫，實現(xiàn)問題的智能分析求解，已成為發(fā)展趨勢。

1.2 挑戰(zhàn)

盡管目前知識庫構(gòu)建技術(shù)已逐漸成熟，但在實際應(yīng)用中依然面臨巨大的困難和挑戰(zhàn)。在地質(zhì)領(lǐng)域中，數(shù)據(jù)類型眾多，數(shù)據(jù)描述無統(tǒng)一規(guī)范，因此在分詞的過程中會出現(xiàn)信息丟失。如何準確的對地質(zhì)術(shù)語進行自動識別、劃分，是構(gòu)建知識庫，進行知識計算面臨的重要問題。由于地質(zhì)數(shù)據(jù)具有時間跨度大、空間覆蓋范圍廣、數(shù)據(jù)關(guān)聯(lián)性強、不確定性等特點[1-2]，導(dǎo)致對于地質(zhì)實體關(guān)系高度復(fù)雜，地質(zhì)現(xiàn)象、地質(zhì)過程的形成機理及規(guī)律性無統(tǒng)一的認識。因此，在知識的匯聚融合中會出現(xiàn)知識沖突，并隨時間變化會不斷形成新的認識，甚至否定原有認識。如何綜合不同數(shù)據(jù)源的資料，構(gòu)建統(tǒng)一知識庫也是目前面臨的問題。

1.3 地質(zhì)知識庫構(gòu)建的意義及應(yīng)用

區(qū)域成礦預(yù)測是分析研究區(qū)的地層、大地構(gòu)造、蝕變、巖漿巖等成礦地質(zhì)條件以及物化探異常信息，進行綜合評價圈定找礦靶區(qū)[3]。目前，成礦預(yù)測主要分為以數(shù)據(jù)驅(qū)動和以知識(模型)驅(qū)動為主的兩類方法。數(shù)據(jù)驅(qū)動是從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律并進行預(yù)測，知識(模型)驅(qū)動是研究成礦規(guī)律，總結(jié)找礦標志特征及找礦模型。地質(zhì)數(shù)據(jù)平臺的建設(shè)及數(shù)據(jù)匯聚體系形成，提供了地質(zhì)條件分析的數(shù)據(jù)源。因此，如何充分利用數(shù)據(jù)，發(fā)現(xiàn)數(shù)據(jù)中存在的本質(zhì)關(guān)聯(lián)特征，從數(shù)據(jù)中提取控制成礦的關(guān)鍵信息，構(gòu)建地質(zhì)知識庫，建設(shè)地質(zhì)大腦，對于認識礦床的形成原因，圈定預(yù)測靶區(qū)具有重要意義。

我國鎢礦資源豐富，類型多樣，分布相對集中?？偨Y(jié)不同類型鎢礦的地質(zhì)條件特征，構(gòu)建鎢礦知識庫，對于研究鎢礦成礦規(guī)律以及深部礦產(chǎn)預(yù)測具有一定的指導(dǎo)作用。

目前，知識庫的應(yīng)用主要有智能語義搜索[4]和問答系統(tǒng)[5-6]。而研究人員關(guān)注的更多為應(yīng)用知識庫如何解決目前面臨的問題，如成礦譜系形成的特征分析及關(guān)鍵控制因素，板塊運動下物質(zhì)循環(huán)與致礦異常的形成機理分析。因此，綜合知識庫可以開展地質(zhì)實體(礦床、控礦要素、巖體)空間關(guān)聯(lián)性分析，理清物質(zhì)相互作用過程。對于地質(zhì)信息工作者可以從知識計算、智能分析推理進行研究。

2 大數(shù)據(jù)環(huán)境下知識庫構(gòu)建

知識庫是針對某一領(lǐng)域問題求解的需要，將具有相互聯(lián)系的知識集合經(jīng)過組織、分類，并按一定的表示方式在計算機中存儲，這些知識包括與領(lǐng)域相關(guān)的理論知識、事實數(shù)據(jù)及專家經(jīng)驗知識[7-10]。建立鎢礦知識庫的目標是探索以數(shù)據(jù)驅(qū)動的思想自動分析不同鎢礦類型形成的主要控制因素，定量分析地質(zhì)實體的相關(guān)性。

2.1 知識庫構(gòu)建現(xiàn)狀

目前，大量的學(xué)者對知識庫構(gòu)建進行了研究。朱木易潔等[11]介紹了知識圖譜的構(gòu)建方法及構(gòu)建過程；劉嶠等[6]、漆桂林等[12]分析了知識庫構(gòu)建的主要技術(shù)；劉嶠等[6]對知識庫構(gòu)建目前存在的問題進行了分析。另外在不同學(xué)科領(lǐng)域，構(gòu)建了大量的知識庫。何凱濤等[13]論述了數(shù)字礦床模型的概念，采用樹狀結(jié)構(gòu)，建立不同類型銅礦床的礦床地質(zhì)知識模型，采用產(chǎn)生式規(guī)則表示法，構(gòu)建了規(guī)則知識庫；邢寶榮[14]分析了儲層構(gòu)型要素及幾何特征，采用層次分析法，構(gòu)建了辮狀河儲層地質(zhì)知識庫；鐘秀琴等[10]基于OWL本體與Prolog規(guī)則構(gòu)建了平面幾何知識庫；閆洪森等[15]基于本體的思想構(gòu)建了茶葉領(lǐng)域的知識庫。Li等[16]構(gòu)建了判別魚類病癥的規(guī)則知識庫。另外，國內(nèi)外互聯(lián)網(wǎng)公司也推出了自己的知識庫產(chǎn)品，如百度的知心、谷歌的Knowledge Graph、維基百科的Wikidata、微軟的Probase。

2.2 要素模型

建立鎢礦知識庫，需要對知識類型進行分類，確定知識存儲的數(shù)據(jù)模型。礦床數(shù)據(jù)模型可以分為礦床模型和找礦模型。礦床模型研究的是礦床形成原因及機理，預(yù)測要素模型反映了礦床所處的地質(zhì)環(huán)境及物化遙等特性。根據(jù)《Mineral Deposits Models》一書中對礦床地質(zhì)環(huán)境的描述，模型包括巖石類型、結(jié)構(gòu)構(gòu)造、成礦時代、沉積環(huán)境、構(gòu)造、伴生礦床、礦化蝕變、礦物特征等[17]。礦床學(xué)的書籍中也對礦床研究的主要內(nèi)容進行了說明和論述，內(nèi)容包括大地構(gòu)造環(huán)境，物質(zhì)組成、物質(zhì)來源及成礦過程，成礦控制因素，地層、構(gòu)造、巖漿巖、圍巖蝕變與礦床關(guān)系，成因機理，礦體形態(tài)特征及時空分布規(guī)律等[18]。關(guān)于找礦模型，成秋明在文獻[19]中說明了找礦標志組合包括成礦有利構(gòu)造環(huán)境、有利圍巖條件、有利構(gòu)造條件、巖漿條件、礦體結(jié)構(gòu)與構(gòu)造、礦石礦物、圍巖蝕變、微量元素組合、磁異常、重力異常等。綜合礦床模型及找礦模型建立了鎢礦知識庫存儲的數(shù)據(jù)模型，包括大地構(gòu)造環(huán)境、圍巖條件(巖石類型，結(jié)構(gòu)構(gòu)造)、構(gòu)造條件、巖漿條件(巖石組成、來源)、礦體條件(組成、結(jié)構(gòu)構(gòu)造)、礦石礦物、成礦時代、蝕變、元素異常組合等(表1)。

表1 知識庫要素模型

2.3 鎢礦知識庫構(gòu)建

根據(jù)全國礦產(chǎn)資源潛力評價鎢礦數(shù)據(jù)、對鎢礦文獻信息提取的結(jié)果,以及要素模型對數(shù)據(jù)進行整理，建立鎢礦知識庫。根據(jù)《重要礦產(chǎn)預(yù)測類型劃分方案》[20]，將鎢礦預(yù)測類型劃分為石英脈型、矽卡巖型、斑巖型、云英巖型、陸相火山巖型、沉積變質(zhì)型、層控矽卡巖型和砂礦型等8種。在對數(shù)據(jù)的整理過程中，預(yù)測類型還包括類似A-B形式的復(fù)合類型。目前共形成105條記錄。由于每條記錄所包含描述信息較多，下面僅以一例說明知識庫存儲結(jié)構(gòu)及數(shù)據(jù)(表2)。

表2 鎢礦知識庫中數(shù)據(jù)(示例)

3 鎢礦知識庫實踐及應(yīng)用

知識庫的建立是為了使計算機能夠分析礦床形成條件，從而預(yù)測在不同的地質(zhì)條件下礦體賦存的概率。本文以數(shù)據(jù)的分類為例說明知識庫應(yīng)用的一個方面。分類是根據(jù)事物的組成、性質(zhì)、功用等不同表現(xiàn)方面，依據(jù)屬性特征的差異性對事物進行劃分，將某方面特征相似的事物進行歸并。對于礦床則表現(xiàn)在構(gòu)造環(huán)境、物質(zhì)來源、形成過程等多個方面。正確的劃分礦床類型對于認識、指導(dǎo)生產(chǎn)實踐具有重要意義。

實驗數(shù)據(jù)為1例從數(shù)據(jù)庫中抽取并去除預(yù)測類型的鎢礦記錄。由于數(shù)據(jù)量占篇幅原因選擇記錄中的成礦巖體、賦礦地層巖性、礦物組合、蝕變4個特征屬性作為數(shù)據(jù)分類的計算變量。

分類計算的核心是通過字符串的模糊匹配，分別計算測試數(shù)據(jù)的每一特征要素與數(shù)據(jù)庫中匹配特征要素的相似度，累加求和所有特征要素相似度，選擇每一種預(yù)測類型相似度最高的值，最后將所有預(yù)測類型對應(yīng)相似度值進行綜合排序，相似度最高對應(yīng)的預(yù)測類型則為實驗數(shù)據(jù)的分類結(jié)果。本實驗基于python的fuzz.ratio字符串模糊匹配算法，對數(shù)據(jù)進行分類。其中，匹配程度最高為石英脈型，相似度為46.5%，其次相似度分別為矽卡巖型43.25%，斑巖型38.25%。具體計算結(jié)果如圖1所示。

實驗數(shù)據(jù)對應(yīng)類型為矽卡巖型，與計算結(jié)果存在一定偏差。根據(jù)文獻[21]可知廣西資源縣牛塘界鎢礦礦石類型以矽卡巖型為主，次為石英脈型和花崗巖型，礦石品位以石英脈型較高。因此實驗數(shù)據(jù)兼具矽卡巖型與石英脈型特征，與計算結(jié)果基本吻合。表3為相似度對比結(jié)果表。從表中可以看出篩選的結(jié)果數(shù)據(jù)與測試數(shù)據(jù)特征要素匹配程度非常相近。

圖1 分類計算結(jié)果圖

表3 相似度對比結(jié)果表

數(shù)據(jù)成礦巖體賦礦地層巖性礦物組合蝕變匹配度廣西資源縣牛塘界鎢礦(測試數(shù)據(jù))(矽卡巖型)黑云母花崗、細-中粒黑云母花崗巖或中-細粒白云母花崗泥質(zhì)粉砂巖和粉砂質(zhì)泥巖主要金屬礦物有白鎢礦、黃鐵礦、方鉛礦;次要有閃鋅礦、黃銅礦;脈石礦物主要有石英、石榴子石、透輝石、符山石、綠泥石、方解石。次有陽起石、透閃石、斜黝簾石、螢石、鈉長石硅化、黃鐵礦化、碳酸鹽化、綠泥石化、堿性長石化,角巖化、矽卡巖化廣東省南雄棉土窩鎢礦(石英脈型)中細粒白云母花崗巖變質(zhì)砂巖、板巖和石英斑巖礦物組合:金屬礦物有黑鎢礦、白鎢礦、黃鐵礦、黃銅礦、方鉛礦、閃鋅礦、錫石、輝鉍礦、輝鉬礦、毒砂等;脈石礦物主要有石英(約占90%～95%),其次為長石、綠泥石、電氣石、白云母,少量方解石和石膏等硅化、電氣石化、黃鐵礦化、綠泥石化、絹云母化46.5%特征要素匹配度依次:46%、43%、46%、51%江西省修水香爐山鎢礦(矽卡巖型)黑云母二長花崗巖含炭硅泥質(zhì)灰?guī)r和灰質(zhì)泥巖、中厚層狀條帶狀灰?guī)r金屬礦物有白鎢礦、磁黃鐵礦、黃鐵礦、白鐵礦、黃銅礦、閃鋅礦、方鉛礦等;主要脈石礦物有透輝石、石英、方解石、長石,其次有(絹)白云母、石榴石、透閃石、螢石等云英巖化、硅化、綠泥石化、螢石化和高嶺土化43.25%特征要素匹配度依次:35%,42%、52%、44%

4 分析討論

針對實驗結(jié)果，查閱了相應(yīng)礦床地質(zhì)特征描述的文獻資料。根據(jù)文獻[21]對測試數(shù)據(jù)廣西資源縣牛塘界鎢礦的賦礦地層巖性描述為灰黑色變質(zhì)泥質(zhì)粉砂巖、粉砂質(zhì)絹灰黑色變質(zhì)泥質(zhì)粉砂巖、粉砂質(zhì)絹云板巖夾大理巖或矽卡巖化大理巖。而知識庫中該礦床對巖性描述缺少大理巖或矽卡巖化大理巖等關(guān)鍵詞，直接導(dǎo)致計算結(jié)果存在偏差。造成這一問題的主要原因在于數(shù)據(jù)來源的準確性，另一個原因在于字符串匹配算法對于所有詞進行同等匹配，即不能識別關(guān)鍵詞，未對敏感詞賦予較高權(quán)重，進而增加結(jié)果的準確性。本文僅對第一種原因進行了實驗，利用修改后的數(shù)據(jù)重新計算匹配度，結(jié)果見圖2。對比圖1，圖2中包含矽卡巖的預(yù)測類型的數(shù)據(jù)匹配程度更高，結(jié)果更為準確。

圖2 修正測試數(shù)據(jù)后計算結(jié)果圖

5 結(jié) 語

從多源海量的數(shù)據(jù)中挖掘知識，分析數(shù)據(jù)之間的相關(guān)性，構(gòu)建地質(zhì)知識庫對于計算機自動推理、智能分析、輔助決策具有重要意義。因此本文以礦床模型、成礦預(yù)測理論為指導(dǎo)，構(gòu)建了要素模型，結(jié)合潛力評價數(shù)據(jù)和文獻資料構(gòu)建了鎢礦知識庫。在應(yīng)用實踐方面，以數(shù)據(jù)分類為例，進行了文本的相似度計算，實驗結(jié)果表明數(shù)據(jù)源的質(zhì)量對結(jié)果劃分具有重要影響。在數(shù)據(jù)準確，描述完整的情況下，匹配算法可以很好的識別礦產(chǎn)預(yù)測類型。對于另一個問題，計算機自動識別和區(qū)分不同要素變量、不同詞匯的重要性程度，如何融合地質(zhì)專家認識對不同信息賦予不同權(quán)重進行礦產(chǎn)分類，是下一步工作的研究方向。