吳永亮,賈志杰,陳建平,朱月琴
(1.中國(guó)地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京 100083;2.北京市國(guó)土資源信息研究開發(fā)重點(diǎn)實(shí)驗(yàn)室,北京 100083;3.中國(guó)航天標(biāo)準(zhǔn)化與產(chǎn)品保證研究院,北京 100071;4.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;5.國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037)
基于大數(shù)據(jù)智能的找礦模型構(gòu)建與預(yù)測(cè)
吳永亮1,2,3,賈志杰1,2,陳建平1,2,朱月琴4,5
(1.中國(guó)地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京 100083;2.北京市國(guó)土資源信息研究開發(fā)重點(diǎn)實(shí)驗(yàn)室,北京 100083;3.中國(guó)航天標(biāo)準(zhǔn)化與產(chǎn)品保證研究院,北京 100071;4.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;5.國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037)
當(dāng)前地質(zhì)科學(xué)數(shù)據(jù)呈現(xiàn)出科學(xué)大數(shù)據(jù)的特點(diǎn),依靠傳統(tǒng)人工檢索和處理地質(zhì)大數(shù)據(jù)具有很大的局限性,難以滿足當(dāng)前地質(zhì)科學(xué)高速發(fā)展的需求。針對(duì)找礦地質(zhì)模型建立與預(yù)測(cè)需求,本文利用大數(shù)據(jù)發(fā)現(xiàn)方法實(shí)現(xiàn)了地質(zhì)找礦專題數(shù)據(jù)的自動(dòng)采集;利用機(jī)器學(xué)習(xí)方法對(duì)地質(zhì)專題數(shù)據(jù)進(jìn)行深層次的挖掘和提取,研究了基于大數(shù)據(jù)智能的找礦模型預(yù)測(cè)方法。在已有地質(zhì)成礦理論的基礎(chǔ)上,建立了統(tǒng)一的多數(shù)據(jù)源找礦地質(zhì)模型庫(kù),使用樸素貝葉斯分類算法對(duì)找礦概念模型庫(kù)中數(shù)據(jù)進(jìn)行分類研究,通過計(jì)算模型中控礦要素的使用率和重要性來(lái)建立起全面客觀的找礦地質(zhì)模型,最終實(shí)現(xiàn)找礦模型預(yù)測(cè)。
地質(zhì)大數(shù)據(jù);人工智能;找礦模型
地質(zhì)學(xué)屬于數(shù)據(jù)密集型科學(xué),隨著地質(zhì)信息時(shí)代的來(lái)臨,地質(zhì)數(shù)據(jù)已呈現(xiàn)出爆炸式增長(zhǎng)態(tài)勢(shì),面臨著數(shù)據(jù)量巨大、挖掘效率低等問題[1-3],僅依靠人工檢索與處理地質(zhì)大數(shù)據(jù)越來(lái)越難以滿足當(dāng)前地質(zhì)科學(xué)高速發(fā)展的需求[4-5]。隨著AlphaGo在圍棋對(duì)弈取得了舉世矚目的成就,人工智能的發(fā)展應(yīng)用也達(dá)到了高峰,這為地學(xué)研究提供了新的思路[6-7]。人工智能是利用計(jì)算機(jī)來(lái)模擬人腦從事的推理、學(xué)習(xí)、思考等活動(dòng),以人類智力開展圖像識(shí)別、自然語(yǔ)言理解等復(fù)雜問題。人類習(xí)得語(yǔ)言、思維的過程,就是從大數(shù)據(jù)學(xué)習(xí)的過程。因此,大數(shù)據(jù)是實(shí)現(xiàn)人工智能的重要支撐,而大數(shù)據(jù)智能則是基于大數(shù)據(jù)驅(qū)動(dòng)的人工智能[8-9]。地學(xué)領(lǐng)域既有大數(shù)據(jù)的基礎(chǔ),又有利用人工智能解決成礦預(yù)測(cè)、資源評(píng)價(jià)、環(huán)境保護(hù)等復(fù)雜問題的需求。
國(guó)務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》(國(guó)發(fā)〔2017〕35號(hào))提出了研究“數(shù)據(jù)驅(qū)動(dòng)與知識(shí)引導(dǎo)相結(jié)合的人工智能方法”大數(shù)據(jù)智能理論的重要目標(biāo)。如何利用人工智能手段有效的發(fā)現(xiàn)和獲取地質(zhì)大數(shù)據(jù),挖掘出高價(jià)值信息與知識(shí),解決地學(xué)問題并實(shí)現(xiàn)相應(yīng)地質(zhì)服務(wù)具有重大意義[5]。本文從地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)與挖掘入手,探索了地質(zhì)大數(shù)據(jù)驅(qū)動(dòng)與知識(shí)引導(dǎo)相結(jié)合的人工智能應(yīng)用方法,建立了地質(zhì)找礦數(shù)據(jù)模型,研究了基于大數(shù)據(jù)智能實(shí)現(xiàn)的找礦模型預(yù)測(cè)方法,開發(fā)了相應(yīng)的軟件系統(tǒng)并進(jìn)行了應(yīng)用實(shí)驗(yàn)。結(jié)果表明,本文給出基于大數(shù)據(jù)智能的找礦模型預(yù)測(cè)方法有效可行,為利用計(jì)算機(jī)發(fā)現(xiàn)、挖掘地質(zhì)大數(shù)據(jù),開展找礦地質(zhì)模型預(yù)測(cè)工作探索出具有實(shí)用價(jià)值的技術(shù)方法。
1.1研究方法
發(fā)現(xiàn)地質(zhì)大數(shù)據(jù)是實(shí)現(xiàn)人工智能處理大數(shù)據(jù)的前提條件,挖掘地質(zhì)大數(shù)據(jù)是解決問題的重要手段。利用計(jì)算機(jī)從紛雜的數(shù)據(jù)海洋中發(fā)現(xiàn)需要的地質(zhì)數(shù)據(jù),然后對(duì)各類結(jié)構(gòu)、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行信息抽取與挖掘,得到數(shù)據(jù)的潛在規(guī)律與有價(jià)值的信息,不斷的循環(huán)迭代,最終解決成礦預(yù)測(cè)、地質(zhì)規(guī)律研究、資源評(píng)價(jià)等地質(zhì)科學(xué)問題,見圖1。

圖1 地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)與挖掘
數(shù)據(jù)發(fā)現(xiàn)任務(wù)就是采集地質(zhì)專題數(shù)據(jù),根據(jù)需求從互聯(lián)網(wǎng)中獲取到關(guān)心的地質(zhì)數(shù)據(jù)并存儲(chǔ)到本地計(jì)算機(jī)或數(shù)據(jù)庫(kù)服務(wù)器中,從而開展下一步的處理和分析。數(shù)據(jù)發(fā)現(xiàn)在注重地質(zhì)專業(yè)數(shù)據(jù)采集方法實(shí)現(xiàn)的同時(shí),也要注重?cái)?shù)據(jù)采集的效率。不僅要采集到地質(zhì)專題數(shù)據(jù),還能實(shí)現(xiàn)半自動(dòng)化甚至自動(dòng)化的數(shù)據(jù)采集[10]。目前,對(duì)于互聯(lián)網(wǎng)數(shù)據(jù)采集的主要分為兩部分,即互聯(lián)網(wǎng)數(shù)據(jù)爬取和信息提取。
數(shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),將數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識(shí)別與人工智能等領(lǐng)域有機(jī)結(jié)合起來(lái),從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識(shí)[11-12]。數(shù)據(jù)挖掘任務(wù)一般可以分兩類:描述和預(yù)測(cè)。描述性挖掘任務(wù)是分析數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性,預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷。數(shù)據(jù)挖掘技術(shù)主要又分成“關(guān)聯(lián)規(guī)則”,“時(shí)間序列”,“聚集”,“分類”等[13]。
本文針對(duì)地質(zhì)找礦需求,在傳統(tǒng)地質(zhì)找礦數(shù)據(jù)應(yīng)用的基礎(chǔ)上,采取大數(shù)據(jù)發(fā)現(xiàn)方法采集找礦專題信息數(shù)據(jù),利用大數(shù)據(jù)挖掘方法開展地質(zhì)找礦模型預(yù)測(cè),最終實(shí)現(xiàn)大數(shù)據(jù)智能在地質(zhì)找礦領(lǐng)域的應(yīng)用。
1.2技術(shù)方法及模塊功能
針對(duì)地質(zhì)大數(shù)據(jù)智能應(yīng)用需求,利用C#開發(fā)語(yǔ)言和MySQL數(shù)據(jù)庫(kù),集成了Nherbinate框架工具,采用較成熟的C/S體系結(jié)構(gòu)及目錄服務(wù)器搜索模式,開發(fā)了地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)與挖掘系統(tǒng)實(shí)現(xiàn)上述工作,可以實(shí)現(xiàn)地質(zhì)專題數(shù)據(jù)采集、地質(zhì)找礦模型構(gòu)建與預(yù)測(cè)等功能,技術(shù)方法見圖2。系統(tǒng)主要模塊功能以下包括幾方面。
1)地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)模塊主要功能是通過爬蟲和正則表達(dá)式實(shí)現(xiàn)公域網(wǎng)數(shù)據(jù)的爬取和抽取,通過調(diào)用Everything.dll的方法實(shí)現(xiàn)局域網(wǎng)絡(luò)內(nèi)計(jì)算機(jī)本地?cái)?shù)據(jù)的全盤搜索和獲取,對(duì)采集到的數(shù)據(jù)按統(tǒng)一的清洗和存儲(chǔ)規(guī)則進(jìn)行處理,獲得地質(zhì)找礦專題大數(shù)據(jù)。
2)數(shù)據(jù)挖掘模塊的主要功能是在獲取的研究區(qū)地質(zhì)專題數(shù)據(jù)的基礎(chǔ)上,結(jié)合人工選擇確認(rèn)的方式整理數(shù)據(jù),將傳統(tǒng)地質(zhì)找礦模型進(jìn)行系統(tǒng)的歸納與總結(jié),獲得研究區(qū)的控礦要素,建立統(tǒng)一的找礦概念模型數(shù)據(jù)庫(kù)。使用樸素貝葉斯分類算法對(duì)研究區(qū)數(shù)據(jù)進(jìn)行模型分類、匹配、計(jì)算等工作,實(shí)現(xiàn)找礦模型預(yù)測(cè)。將經(jīng)過驗(yàn)證后的找礦模型添加到原有數(shù)據(jù)庫(kù)中,作為下次機(jī)器學(xué)習(xí)的訓(xùn)練樣本,形成從數(shù)據(jù)-信息-知識(shí)-價(jià)值服務(wù)-再數(shù)據(jù)的大數(shù)據(jù)應(yīng)用鏈。隨著建立的找礦概念模型越多,系統(tǒng)的人工智能經(jīng)驗(yàn)越來(lái)越豐富,最終預(yù)測(cè)的研究區(qū)找礦模型結(jié)果將越來(lái)越準(zhǔn)備。
2.1找礦模型理論依據(jù)
找礦模型以地質(zhì)成礦理論為依據(jù),相關(guān)地質(zhì)成礦規(guī)律與成礦預(yù)測(cè)理論包括:朱裕生等的礦床成礦模式理論[14]、翟裕生等的成礦系統(tǒng)理論[15]、程裕淇等的礦床成礦系列理論[16]、涂光熾等關(guān)于大型、超大型礦床的成礦和找礦理論[17]等。找礦模型以不同控礦要素為基礎(chǔ),在區(qū)域地質(zhì)背景、成礦規(guī)律與成礦模式的基礎(chǔ)上構(gòu)建的區(qū)域找礦模型,形成找礦模型預(yù)測(cè)方法指導(dǎo)找礦。例如:大多已知成礦區(qū)帶的大地構(gòu)造背景決定著預(yù)測(cè)區(qū)的選擇,大多已知礦床的形成時(shí)代決定著成礦期的確定,大多已知礦床的成礦條件、控礦要素和找礦標(biāo)志決定著找礦模型等。找礦模型可突出主要的控礦因素、抓住找礦的關(guān)鍵信息、提出獲得關(guān)鍵信息的有效方法組合、總結(jié)主要找礦標(biāo)志組合、簡(jiǎn)化找礦實(shí)際過程,是進(jìn)行成礦預(yù)測(cè)的主要依據(jù)[18]。
2.2找礦模型構(gòu)建
找礦模型構(gòu)建是在地質(zhì)大數(shù)據(jù)的基礎(chǔ)上,建立找礦模型和找礦模型數(shù)據(jù)庫(kù),為機(jī)器學(xué)習(xí)提供重要的數(shù)據(jù)基礎(chǔ)。根據(jù)已有文獻(xiàn)等數(shù)據(jù),分析研究區(qū)區(qū)域成礦地質(zhì)背景及典型礦床控礦條件,總結(jié)區(qū)域成礦規(guī)律,建立區(qū)域找礦概念模型,分析主要礦床類型、控礦因素和找礦標(biāo)志[19]。找礦模型構(gòu)建主要包含兩部分工作:第一,進(jìn)行數(shù)據(jù)整理,將各種礦床模型名稱以及控礦要素進(jìn)行統(tǒng)一;第二,建立起結(jié)構(gòu)統(tǒng)一、易于理解的找礦模型數(shù)據(jù)庫(kù),為建立找礦概念模型提供訓(xùn)練數(shù)據(jù)。
2.2.1 數(shù)據(jù)整理
模型的數(shù)據(jù)整理主要包括兩個(gè)方面。一是模型名稱的整理。模型名稱一般分為兩類,一類是典型礦床式命名,例如山東焦家金礦;一類是抽象總結(jié)式命名,例如巖漿巖型稀土礦。這兩種模型名稱在數(shù)據(jù)整理過程中無(wú)法統(tǒng)一,因此將模型中的關(guān)鍵詞進(jìn)行統(tǒng)一。二是控礦要素的整理。隨著模型數(shù)量的增多,而同一控礦要素會(huì)重復(fù)出現(xiàn)。在不同的地質(zhì)數(shù)據(jù)資料中,控礦要素文本數(shù)據(jù)并不嚴(yán)格一致。為了使計(jì)算機(jī)能夠準(zhǔn)確識(shí)別控礦要素,必須保證同一個(gè)控礦要素文本數(shù)據(jù)具有唯一性。
2.2.2 建立找礦模型數(shù)據(jù)庫(kù)
在地質(zhì)大數(shù)據(jù)機(jī)器學(xué)習(xí)中,需要建立統(tǒng)一的,適用所有的礦床成礦模式或礦床式(代表在成礦作用發(fā)生、發(fā)展、演化過程的某個(gè)時(shí)期,在相似地質(zhì)條件下形成的典型礦床)的找礦概念模型數(shù)據(jù)結(jié)構(gòu)。由于資料來(lái)源不同及資料的成礦地質(zhì)條件和礦產(chǎn)勘查程度存在差異,造成了建立找礦模型時(shí),對(duì)其理解和具體操作出現(xiàn)不統(tǒng)一的結(jié)果,同一名稱屬不同概念,不同名稱又屬同一內(nèi)涵的現(xiàn)象在不同資料中普遍存在。因此依據(jù)地質(zhì)大數(shù)據(jù)建立起每一個(gè)找礦模型與控礦要素的對(duì)應(yīng)關(guān)系。
找礦模型數(shù)據(jù)來(lái)源主要有北京市國(guó)土資源信息研究開發(fā)重點(diǎn)實(shí)驗(yàn)室已有找礦模型以及相關(guān)文獻(xiàn)中整理的找礦模型等,目前已經(jīng)建立了全國(guó)礦產(chǎn)資源潛力評(píng)價(jià)預(yù)測(cè)模型88個(gè)、全國(guó)典型礦床成礦模型257個(gè)。
找礦模型預(yù)測(cè)的本質(zhì)是找礦模型文本數(shù)據(jù)的分類,它的核心是提取分類數(shù)據(jù)特征,然后選擇找礦模型最優(yōu)匹配,從而進(jìn)行分類。
3.1模型分類
模型分類是通過樸素貝葉斯文本分類方法將找礦概念模型庫(kù)中現(xiàn)有數(shù)據(jù)作為訓(xùn)練樣本,以研究區(qū)的控礦要素作為待處理數(shù)據(jù),對(duì)研究區(qū)資料進(jìn)行分類,計(jì)算對(duì)研究區(qū)控礦要素的條件概率,判斷其屬于模型庫(kù)中每個(gè)模型的概率。
假設(shè)有m個(gè)找礦地質(zhì)概念模型y1,y2,…,ym,記為Y,見式(1),每個(gè)模型所對(duì)應(yīng)的控礦要素分別為F1,F(xiàn)2,…,F(xiàn)m。
Y={y1,y2,…,ym}
(1)
研究區(qū)內(nèi)收集到n個(gè)控礦要素,將這些屬性作為一個(gè)向量,記為X。{y1,y2,…,ym}中的概率值為{p1,p2,…,pm},其中Pi為X屬于yi的概率。假設(shè)第i個(gè)找礦地質(zhì)模型有ki個(gè)控礦要素,記為Fi,見式(2)。
Fi={f1,f2,…,fki}
(2)
因此,m個(gè)找礦地質(zhì)概念模型中共有H個(gè)控礦要素,見式(3)。
(3)
每個(gè)找礦地質(zhì)概念模型所對(duì)應(yīng)的先驗(yàn)概率P(yi),見式(4)。
(4)
記研究區(qū)中第j(1≤j≤n)個(gè)控礦要素在第i(1≤i≤m)個(gè)找礦地質(zhì)概念模型Yi概率為p(xj|yi),由于各個(gè)控礦要素是條件獨(dú)立的,則根據(jù)貝葉斯定理可得研究區(qū)屬于m個(gè)找礦地質(zhì)概念模型的概率P(yi|X),見式(5)。

(5)
因?yàn)榉帜笇?duì)與所有類別為常數(shù),因此只要將分子最大化皆可,又因?yàn)楦鱾€(gè)控礦要素是條件獨(dú)立的,所以有式(6)。
P(X|yi)p(yi)=P(x1|yi)P(x2|yi)…

(6)
分類結(jié)果P見式(7)。
P={p1,p2,…,pm}
(7)
其中,Pj是研究區(qū)控礦要素屬于模型Yj的概率。
3.2模型匹配
找礦模型匹配分為兩步:第一步為關(guān)鍵詞匹配,關(guān)鍵詞由中文分詞結(jié)果中選取及手動(dòng)添加得到,多個(gè)關(guān)鍵詞與模型名稱進(jìn)行匹配;第二步為研究區(qū)控礦要素與找礦模型中的控礦要素匹配,篩選出m個(gè)找礦模型M1,M2,…Mm,每個(gè)模型有n個(gè)不等的控礦要素F1,F(xiàn)2,…Fn。
3.3模型計(jì)算
3.3.1計(jì)算控礦要素重要性
根據(jù)篩選出的m個(gè)找礦概念模型M1,M2,…Mm,每個(gè)模型所對(duì)應(yīng)的控礦要素分別為F1,F(xiàn)2,…Fm。對(duì)于第i個(gè)模型,在控礦要素?cái)?shù)據(jù)清洗過程中按控礦地質(zhì)條件類別不同分為ci類,將所有控礦要素按照控礦地質(zhì)條件類別統(tǒng)計(jì),每類所對(duì)應(yīng)的控礦要素個(gè)數(shù)分別為Numi1,Numi2,...Numici(1≤i≤m),則在第i個(gè)模型的第j類中,每個(gè)控礦要素的重要性pij見式(8)。

(8)
其中,i取值范圍為[1,m],j取值范圍為[0,ci]。
由于一個(gè)控礦要素可能出現(xiàn)在多個(gè)模型中,所以對(duì)于研究區(qū)中任意一個(gè)控礦要素將在其每個(gè)模型中的重要性pij加起來(lái)得到這個(gè)控礦要素的最終重要性指標(biāo)。重要性P的計(jì)算公式為式(9)。
P=∑pij
(9)
其中,pij為每個(gè)模型中控礦要素的重要性。
3.3.2 計(jì)算控礦要素的使用率
根據(jù)篩選出的m個(gè)找礦地質(zhì)概念模型M1,M2,…Mm,每個(gè)模型所對(duì)應(yīng)的控礦要素個(gè)數(shù)分別為N1,N2,…Nm,共計(jì)有H(N1+N2+…+Nm=H)個(gè)(不刪除重復(fù)的控礦要素),則可得第i個(gè)控礦要素的使用率計(jì)算公式為式(10)。

(10)
其中i的取值范圍為[1,H]。
3.4模型驗(yàn)證
為了驗(yàn)證模型計(jì)算的正確性,通過在找礦概念模型數(shù)據(jù)庫(kù)選擇一個(gè)模型,刪除其中多個(gè)控礦要素,如果模型匹配結(jié)果中有刪除的控礦要素,即該計(jì)算結(jié)果可靠。例如,選擇數(shù)據(jù)庫(kù)中熱液型硫鐵礦進(jìn)行驗(yàn)證。選擇研究區(qū)控礦要素,刪除成礦時(shí)代和含礦巖系。驗(yàn)證結(jié)果顯示包含成礦時(shí)代和含礦巖系,因此計(jì)算方法通過現(xiàn)有模型驗(yàn)證。
4.1數(shù)據(jù)發(fā)現(xiàn)
以焦家金成礦帶作為實(shí)例應(yīng)用進(jìn)行驗(yàn)證,主要流程包括數(shù)據(jù)發(fā)現(xiàn)、控礦要素選取、機(jī)器學(xué)習(xí)、模型計(jì)算,找礦概念模型輸出。工作區(qū)位于焦家近況成礦帶上,行政區(qū)劃隸屬于萊州市、招遠(yuǎn)市,面積約180 km2。資料收集是通過數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)對(duì)北京市國(guó)土資源信息研究開發(fā)重點(diǎn)實(shí)驗(yàn)室局域網(wǎng)以及知網(wǎng)等網(wǎng)站進(jìn)行自動(dòng)檢索與采集,經(jīng)人工確認(rèn)后獲取了研究區(qū)地調(diào)網(wǎng)頁(yè)信息35份,勘查成果報(bào)告204份,區(qū)域地質(zhì)資料17份,科研專著8份、論文193篇,為建立初步找礦概念模型提供了數(shù)據(jù)基礎(chǔ)。
4.2控礦要素分析與模型構(gòu)建
通過研究分析焦家金成礦帶上的大中型典型礦床地質(zhì)特征及控礦要素,確定研究區(qū)的地質(zhì)找礦信息的控礦要素如下。
1)成礦時(shí)代?,F(xiàn)有礦床主要賦存在中生代巖體邊緣或者兩種巖體的接觸帶上。
2)成礦環(huán)境。俯沖背景下的伸展拉張環(huán)境下,壓扭性構(gòu)造控礦。
3)控礦構(gòu)造。主要的控礦構(gòu)造是北東-北北東向斷裂構(gòu)造,其中焦家主干斷裂、河西支斷裂和望兒山支斷裂是主要的賦礦斷裂構(gòu)造,同時(shí)靈北斷裂及其他次級(jí)斷裂構(gòu)造對(duì)金礦床亦有明顯的控制作用。
4)圍巖蝕變。硅化與金礦形成關(guān)系較為密切,它是熱液中的二氧化硅在外部作用下形成的硅化石英,它與斜長(zhǎng)石或鉀長(zhǎng)石的交代作用使得其呈現(xiàn)殘留體特征。絹云母化及黃鐵礦化是和礦化關(guān)系最密切的蝕變特征,膠西北金礦中廣泛存在的圍巖蝕變就是黃鐵絹英巖化作用;碳酸巖化是巖石受到熱液蝕變后產(chǎn)生的,共生的有綠泥石化,它是破碎蝕變帶的一種重要蝕變作用,通過作為研究熱液活動(dòng)結(jié)束的標(biāo)志,在金礦化中碳酸鹽化標(biāo)志著礦化的結(jié)束。
5)含礦巖系。主要礦體一般賦存于主裂面下盤0~40 m范圍內(nèi)的黃鐵絹英巖化碎裂巖帶和黃鐵絹英巖化花崗質(zhì)碎裂巖帶,其構(gòu)造活動(dòng)強(qiáng)烈,破碎程度高、裂隙發(fā)育、孔隙度大,有利于礦液的滲濾、擴(kuò)散和交代,礦化富集程度高。
依據(jù)研究區(qū)分析結(jié)果,在找礦模型數(shù)據(jù)庫(kù)中選取對(duì)應(yīng)的控礦要素,添加新增控礦要素,建立研究區(qū)初始找礦模型作為待處理輸入數(shù)據(jù),通過軟件系統(tǒng)進(jìn)行預(yù)測(cè)計(jì)算。
4.3找礦模型預(yù)測(cè)計(jì)算
找礦概念模型庫(kù)中數(shù)據(jù)作為訓(xùn)練集,依據(jù)樸素貝葉斯算法對(duì)研究區(qū)進(jìn)行分類;分類結(jié)果是每一個(gè)找礦模型的概率,并按概率大小排序;依據(jù)關(guān)鍵詞從分類結(jié)果名稱中檢索與研究區(qū)關(guān)鍵詞相關(guān)的模型,完成模型匹配;對(duì)匹配成功的多個(gè)模型,分析模型中的控礦要素,計(jì)算每個(gè)控礦要素出現(xiàn)的次數(shù),統(tǒng)計(jì)在同一個(gè)模型中此控礦要素對(duì)應(yīng)的控礦要素類別的個(gè)數(shù),依據(jù)此結(jié)果計(jì)算每個(gè)控礦要素在模型中的重要性,最終將所有模型中同一控礦要素的重要性之和累加。
對(duì)控礦要素依據(jù)使用率和重要性進(jìn)行排序,結(jié)合專家知識(shí),選取排序靠前且研究區(qū)初始找礦模型中缺失的控礦要素作為補(bǔ)充。經(jīng)過人機(jī)交互,本次計(jì)算結(jié)果為缺失地球化學(xué)和地球物理兩項(xiàng)。從相關(guān)參考文獻(xiàn)及數(shù)據(jù)資料中將相應(yīng)控礦要素變量特征補(bǔ)充到研究區(qū)找礦模型中,見表1。
4.3.1 地球物理找礦模型
礦體中,因硅化影響而呈較弱的高阻異常,第四系覆蓋的不均勻?qū)σ曤娮杪视休^大影響。礦體在平面上投影與視極化率異常對(duì)應(yīng)較好。從已知的金礦床看,其中大部分礦床所在區(qū)域是平緩的弱磁場(chǎng)和負(fù)磁場(chǎng)區(qū),磁場(chǎng)為低緩變場(chǎng)。布格重力異常顯示為中部重力低,西部和東部重力相對(duì)高的兩高一低異常,區(qū)內(nèi)北東向、近東西向異常錯(cuò)動(dòng)帶。
4.3.2 地球化學(xué)找礦模型
研究區(qū)金礦床的指示元素為An、Hs、As、Bi、Ni、As、Pb、Cu、Zn和S,其異常的規(guī)模、強(qiáng)度與金礦化的規(guī)模有明顯的相關(guān)關(guān)系,各元素的分帶趨勢(shì)是:礦體頭部指示元素為:Hg、Ag、Sb、Pb,近礦指示元素是As、Au、Zn,礦尾指示元素是Bi、Cu等,它們是找礦的直接標(biāo)志。

表1 找礦地質(zhì)模型輸出
經(jīng)過預(yù)測(cè)計(jì)算并補(bǔ)充控礦要素后,建立起完整的焦家金礦找礦模型,將模型添加到已有數(shù)據(jù)庫(kù)中。這些找礦模型不僅是基于地質(zhì)大數(shù)據(jù)下的礦床形成條件和特征概況,也反映成礦地質(zhì)理論的表達(dá)形式。隨著數(shù)據(jù)庫(kù)中的找礦模型不斷豐富,預(yù)測(cè)結(jié)果越來(lái)越可靠,能有效的指導(dǎo)找礦勘查。
1)提出了基于大數(shù)據(jù)智能的找礦概念模型構(gòu)建與預(yù)測(cè)方法,實(shí)現(xiàn)了地質(zhì)找礦專題數(shù)據(jù)的自動(dòng)采集,對(duì)地質(zhì)數(shù)據(jù)進(jìn)行挖掘和提取,是信息時(shí)代背景下大數(shù)據(jù)的理念、技術(shù)和方法在地質(zhì)領(lǐng)域的應(yīng)用與實(shí)踐。
2)研究了基于地質(zhì)成礦理論的找礦地質(zhì)模型構(gòu)建方法,將機(jī)器學(xué)習(xí)算法引入到找礦概念模型預(yù)測(cè)中并開發(fā)了相應(yīng)的軟件系統(tǒng),以焦家金成礦帶研究區(qū)為例對(duì)系統(tǒng)所提出研究區(qū)找礦概念模型進(jìn)行示范研究,實(shí)驗(yàn)表明本方法可科學(xué)匹配、推送數(shù)據(jù)庫(kù)中最佳的找礦模型。
3)提出了模型分類結(jié)果中控礦要素評(píng)價(jià)算法,該算法能通過分類計(jì)算得出研究區(qū)屬于每個(gè)模型的概率以及控礦要素重要性,幫助地質(zhì)工作者更好評(píng)價(jià)每個(gè)模型中的控礦要素。
4)現(xiàn)有找礦模型知識(shí)庫(kù)數(shù)據(jù)量不足,目前已完成《全國(guó)礦產(chǎn)資源潛力評(píng)價(jià)預(yù)測(cè)模型》及《全國(guó)典型礦床成礦模式》共345個(gè)找礦模型的建立,需要進(jìn)一步從相關(guān)地質(zhì)數(shù)據(jù)中搜集并整理找礦模型。此外,僅依據(jù)使用率和重要性評(píng)判模型控礦要素,不能滿足最優(yōu)找礦模型評(píng)價(jià)需求。下一步工作重點(diǎn)是補(bǔ)充找礦模型數(shù)據(jù)以及完善控礦要素評(píng)價(jià)算法。
[1] G?lzer P,Simon L,Cato P,et al.Designing Global Manufacturing Networks Using Big Data[J].Procedia Cirp,2014,33:191-196.
[2] Guo H,Wang L,Chen F,et al.Scientific big data and Digital Earth[J].Chinese Science Bulletin,2014,59(35):5066-5073.
[3] Lee J G,Kang M.Geospatial Big Data:Challenges and Opportunities[J].Big Data Research,2015,2(2):74-81.
[4] 陳建平,李婧,崔寧,等.大數(shù)據(jù)背景下地質(zhì)云的構(gòu)建與應(yīng)用[J].地質(zhì)通報(bào),2015,34(7):1260-1265.
[5] 趙鵬大.?dāng)?shù)字地質(zhì)與礦產(chǎn)資源評(píng)價(jià)[J].地質(zhì)學(xué)刊,2012,36(3):225-228.
[6] 劉知遠(yuǎn),崔安頎,等.大數(shù)據(jù)智能[M].北京:電子工業(yè)出版社,2016.
[7] Ranina R,Madhavan A,Ng A Y.Large-scale deep unsupervised learning using graphics processors[J].International Conference on Machine Learning,2009:873-880.
[8] Manegold S,Kersten M.Big Data[J].ERCIM News,2012,89:33-36.
[9] 趙國(guó)棟,易歡歡,糜萬(wàn)軍,等.大數(shù)據(jù)時(shí)代的歷史機(jī)遇[M].北京:清華大學(xué)出版社,2013.
[10] 徐春鳳,王艷春,翟宏宇.全自動(dòng)網(wǎng)頁(yè)信息采集系統(tǒng)[J].長(zhǎng)春理工大學(xué)學(xué)報(bào):自然科學(xué)版:,2015(2)2:151-154.
[11] 王樹良,丁剛毅,鐘銘.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國(guó)電子科學(xué)院學(xué)報(bào),2013,8(1):10-16.
[12] Fu T C.A review on time series data mining[J].Engineering Applications of Artificial Intelligence,2011,24(1):164-181.
[13] 劉大有,陳慧靈,齊紅,等.時(shí)空數(shù)據(jù)挖掘研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2013,50(2):225-239.
[14] 朱裕生,梅燕雄.成礦模式研究的幾個(gè)問題[J].地球?qū)W報(bào),1995,16(2):182-189.
[15] 翟裕生,鄧軍,李曉波.區(qū)域成礦學(xué)[M].北京:地質(zhì)出版社,1999.
[16] 程裕淇,陳毓川,毛景文,等.初論礦床的成礦系列問題[J].中國(guó)地質(zhì)科學(xué)院院報(bào),1979(1):1-7.
[17] 涂光熾.超大型礦床的找尋和理論研究[J].礦產(chǎn)與地質(zhì),1989(1):1-8.
[18] 邵擁軍,彭省臨,吳淦國(guó).大型礦山接替資源定位預(yù)測(cè)的途徑及其研究意義[J].礦產(chǎn)與地質(zhì),2005,19(1):16-18.
[19] 于萍萍,陳建平,柴福山,等.基于地質(zhì)大數(shù)據(jù)理念的模型驅(qū)動(dòng)礦產(chǎn)資源定量預(yù)測(cè)[J].地質(zhì)通報(bào),2015,34(7):1333-1343.
Constructionandpredictionofprospectingmodelbasedonbigdataintelligence
WU Yonglinag1,2,3,JIA Zhijie1,2,CHEN Jianping1,2,ZHU Yueqin4,5
(1.School of Earth Sciences and Resources,China University of Geosciences(Beijing),Beijing100083,China;2.Beijing Key Laboratory of Development and Research for Land Resources Information,Beijing100083,China;3.China Academy of Aerospace Standardization and Product Assurance,Beijing100071,China;4.Development and Research Center,China Geological Survey,Beijing100037,China;5.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing100037,China)
Geological science data present the characteristic of big data.Traditional manual retrieval and processing geological data has great limitations.It is difficult to meet the high-speed development requirement of the current geological science.Aiming at the establishment and prediction of prospecting geological model,this paper makes use of the big data discovery method to realize the automatic collection of geological prospecting thematic data.By using the machine learning method,the geological thematic data is mining deeply,and the prediction method of prospecting model based on big data intelligence is researched.On the basis of the existing geological metallogenic theory,a unified geological prospecting model library of multi-source data is established.Naive bayesian classification algorithm is used for prospecting concept model library classify data.By calculating model control utilization rate of mineral elements and importance,the comprehensive and objective prospecting geological model is establish to realize the prediction of prospecting model.
geological big data;artificial intelligence;prospecting model
2017-06-17責(zé)任編輯:趙奎濤
國(guó)土資源部公益性行業(yè)科研專項(xiàng)項(xiàng)目資助(編號(hào):201511079)
吳永亮(1987-),男,博士研究生,從事地球探測(cè)與信息技術(shù)、航天標(biāo)準(zhǔn)化技術(shù)研究,E-mail:andyloveti@163.com。
陳建平(1959-),男,教授,博士生導(dǎo)師,從事礦產(chǎn)資源定量預(yù)測(cè)評(píng)價(jià)和"3S"技術(shù)集成應(yīng)用的教學(xué)與研究,E-mail:3s@cugb.edu.cn。
P628
:A
:1004-4051(2017)09-0079-06