冀全偉王文磊劉治博祝茂強(qiáng)袁長江
1.自然資源部古地磁與古構(gòu)造重建重點實驗室,北京 100081;2.中國地質(zhì)科學(xué)院地質(zhì)力學(xué)研究所,北京 100081;3.中國地質(zhì)大學(xué)(北京),北京 100083;4.中國地質(zhì)科學(xué)院礦產(chǎn)資源研究所,北京 100037
信息化時代,社會經(jīng)濟(jì)發(fā)展與生態(tài)環(huán)境治理對地質(zhì)調(diào)查工作提出了新的要求,地質(zhì)調(diào)查工作面臨新的機(jī)遇與挑戰(zhàn)。例如,在特殊地質(zhì)地貌區(qū)開展區(qū)域地質(zhì)調(diào)查工作將有助于特殊地質(zhì)景觀區(qū)基礎(chǔ)地質(zhì)問題的研究,服務(wù)于多門類自然資源與生態(tài)環(huán)境問題的解決(胡健民和陳虹,2019)。隨著地質(zhì)調(diào)查工作的持續(xù)開展,基礎(chǔ)地質(zhì)研究程度不斷提高,成果數(shù)據(jù)資料保持快速積累與更新。如何系統(tǒng)整合已有地質(zhì)、地球化學(xué)、地球物理、遙感等多元、多尺度地質(zhì)調(diào)查數(shù)據(jù)資料,發(fā)展能夠提高工作質(zhì)量與效率的方法,深度挖掘有用信息,進(jìn)而優(yōu)化提升基礎(chǔ)地質(zhì)、礦產(chǎn)地質(zhì)、水文地質(zhì)、災(zāi)害地質(zhì)等調(diào)查評價技術(shù)(楊星辰等,2020;張鑫剛等,2020),被認(rèn)為是地質(zhì)調(diào)查工作手段升級,提高社會經(jīng)濟(jì)服務(wù)能力的突破口之一。亟需學(xué)習(xí)吸收并引進(jìn)數(shù)學(xué)、信息學(xué)等學(xué)科先進(jìn)的數(shù)據(jù)與信息挖掘技術(shù),創(chuàng)新發(fā)展地質(zhì)調(diào)查評價思路與方法。
地質(zhì)填圖作為區(qū)域地質(zhì)調(diào)查工作最基本的核心工作內(nèi)容之一,其效率和精度將直接影響后續(xù)研究工作的開展。傳統(tǒng)地質(zhì)填圖工作主要包括前期資料收集整理、工作方案編制、野外實地勘查、樣品測試分析及數(shù)據(jù)處理、成圖及報告編寫等階段。其中,前期資料收集整理工作多停留在基本資料了解階段,基礎(chǔ)資料及數(shù)據(jù)的應(yīng)用程度不高;而野外工作依靠地質(zhì)工作者的主觀判斷來確定填圖單元,受限于填圖技術(shù)人員的業(yè)務(wù)水平不同,填圖質(zhì)量受到一定影響。因此,為保證填圖成果質(zhì)量,野外實地勘查工作需投入較高的人力、財力和物力成本來完成大量路線調(diào)查及剖面測量等實物工作量。此外,在偏遠(yuǎn)山區(qū)、無人區(qū)、高原地區(qū)開展野外工作還存在一定風(fēng)險性。
隨著機(jī)器學(xué)習(xí)方法的快速發(fā)展,基于機(jī)器學(xué)習(xí)的巖性填圖方法的提出,取得了較好的研究成果與進(jìn)展。相較傳統(tǒng)地質(zhì)填圖技術(shù),機(jī)器學(xué)習(xí)方法中的分類模型或組合算法在巖性分類識別方面具有高效、智能化的特點,可作為具有巨大潛在優(yōu)勢的輔助手段來提高傳統(tǒng)地質(zhì)填圖技術(shù)方法體系的工作效率與能力。已有基于機(jī)器學(xué)習(xí)方法的巖性填圖研究(吳俊等,2016;陳松等,2017),通過系統(tǒng)整合多源遙感、地震、物探、化探、航磁等數(shù)據(jù),建立巖性分類的基礎(chǔ)數(shù)據(jù)集,利用度量學(xué)習(xí)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、隨機(jī)森林(RF)等機(jī)器學(xué)習(xí)分類算法,開展了巖性識別、巖性單元填圖等相關(guān)分類問題的研究 (Cracknell and Reading, 2014;Harris and Grunsky, 2015;鄭陽,2017;Othman and Gloaguen, 2017;Kuhn et al., 2018;張艷等,2019;段友祥等,2020;朱明永等,2020;Wang et al., 2020a, 2020b;Wu et al., 2021)。已有研究表明,這一巖性填圖思路在特定地質(zhì)條件下具有特殊優(yōu)勢(嚴(yán)昊偉等,2017)。
文章主要通過野外基礎(chǔ)地質(zhì)調(diào)查和機(jī)器學(xué)習(xí)分類算法的有機(jī)融合,在填圖空白地區(qū)或工作程度較低地區(qū)開展基于勘查數(shù)據(jù)分析預(yù)測的巖性單元填圖方法探索性研究。選取西藏多龍礦集區(qū)開展模型試驗主要是考慮到兩方面原因。首先,多龍礦集區(qū)是中國重要成礦區(qū)帶班公湖-怒江成礦帶內(nèi)已發(fā)現(xiàn)最大的斑巖型Cu-Au礦產(chǎn)地,具有巨大資源潛力。區(qū)內(nèi)近年來已完成了1∶5萬區(qū)域與礦產(chǎn)地質(zhì)調(diào)查工作,對巖性單元劃分具有較為清晰的認(rèn)識,有利于預(yù)測結(jié)果的驗證與應(yīng)用效果評價。其次,多龍礦集區(qū)積累了大量基礎(chǔ)圖件和勘查數(shù)據(jù)資料,可供研究通過選取不同基礎(chǔ)預(yù)測數(shù)據(jù)組合,構(gòu)建不同工作基礎(chǔ)條件下的模型方法試驗。同時,文中提出的數(shù)據(jù)填圖方法需要開展多批次小范圍野外填圖支撐巖性單元預(yù)測的迭代算法。在模型試驗過程中,已有地質(zhì)圖件能夠代替野外填圖直接為預(yù)測模型提供原始數(shù)據(jù)和現(xiàn)有知識補(bǔ)充。換而言之,通過從已有地質(zhì)圖中提取迭代算法所需的小范圍巖性單元分布來實現(xiàn)數(shù)據(jù)集與知識庫的更新,為模型試驗節(jié)省了實際野外填圖的時間成本。因此,研究以多龍礦集區(qū)為模型試驗區(qū),選擇1∶5萬勘查地球化學(xué)數(shù)據(jù)為基礎(chǔ)預(yù)測數(shù)據(jù),以1∶5萬區(qū)域地質(zhì)圖為參考,進(jìn)行基于梯度提升決策樹算法的巖性預(yù)測填圖模型試驗。
多龍礦集區(qū)位于西藏阿里地區(qū)改則縣境內(nèi),所處的大地構(gòu)造位置為班公湖-怒江成礦帶西段,班公湖-怒江縫合帶北側(cè)、羌塘-三江復(fù)合板片南緣(郭娜等,2018;李興奎等,2018;任紀(jì)瞬等,2019)。地層分區(qū)屬于羌南-保山地層區(qū)多瑪?shù)貙臃謪^(qū),區(qū)內(nèi)地層(圖1)以中生界為主,主要有中侏羅統(tǒng)曲色組 (J2q)和色哇組 (J2s)濁積巖建造、下白堊統(tǒng)美日切錯組(K1m)火山碎屑巖建造以及新生界新近系康托組(N1k)陸源碎屑巖建造和第四系殘坡積物(Q4)(江少卿等,2014;陳紅旗等,2015)。其中,J2q組巖性為粉砂質(zhì)板巖夾變長石石英砂巖(李云強(qiáng)等,2020),J2s組的巖石主要由砂巖、砂礫巖和變長石石英砂巖等組成(符家駿等,2014),同時兩組地層也是含礦巖體的主要圍巖(王勤等,2018)。K1m組的巖石主要為安山巖、英安巖、玄武巖、火山角礫巖和碎屑巖等。N1k組以礫巖、含礫砂巖、紅色泥巖為主要巖性(韋少港等,2017)。多龍礦集區(qū)巖漿活動極為發(fā)育,總體上以噴發(fā)、噴溢和淺成、超淺成侵入為主,具多期活動特征,形成時代為燕山中—晚期(江少卿等,2014;李紅梅,2017)。噴出巖主要由玄武巖、安山巖和流紋巖組成, (孫嘉等,2019)。侵入巖主要為基性、中酸性侵入巖,基性巖主要為輝長巖和輝綠巖,中酸性淺成巖主要為閃長巖、英安巖、花崗閃長斑巖,侵入時代以早白堊為主(陳紅旗等,2015;王勤等,2018)。區(qū)內(nèi)接觸變質(zhì)巖變質(zhì)程度不高,巖體周邊廣泛發(fā)育熱液蝕變及少量石英脈(王繼斌,2018)。
圖1 多龍礦集區(qū)巖性分布圖Fig.1 Spatial distribution of the lithologic units in the Duolong mineral district, Tibet, China
自20世紀(jì)70年代以來,先后有多家地勘和研究單位對多龍礦集區(qū)開展了1∶100萬、1∶25萬和1∶5萬圖幅的區(qū)域地質(zhì)調(diào)查工作。該區(qū)的區(qū)域物探、化探、遙感、礦床勘查工作以及相關(guān)巖石地球化學(xué)(韋少港等,2019)、年代學(xué)(王勤等,2015)、控礦構(gòu)造識別(劉治博等,2017)、遙感異常信息提取(代晶晶等,2013;別小娟等,2013)、蝕變礦物學(xué)(趙子歐等,2020)等方面研究取得了較好的成果進(jìn)展。通過近些年多方面研究,對多龍礦集區(qū)的地質(zhì)背景、成礦規(guī)律、礦床模型等有了新的認(rèn)識(楊歡歡等,2019;王勤等,2019;石洪召等,2019;孫嘉等,2020),目前正根據(jù)已有資料開展進(jìn)一步綜合研究。
基于機(jī)器學(xué)習(xí)方法的巖性填圖對研究區(qū)的基礎(chǔ)地質(zhì)數(shù)據(jù)積累與研究程度具有較高要求,大多針對特定的數(shù)據(jù)資料類型且依賴高質(zhì)量數(shù)據(jù)集,在空白區(qū)或數(shù)據(jù)資料不充分地區(qū)開展工作,將會面臨缺乏基礎(chǔ)地質(zhì)支撐的困難。文中通過野外地質(zhì)調(diào)查與機(jī)器學(xué)習(xí)方法的有機(jī)融合,提出了一種基于梯度提升決策樹 (Gradient boosting decision tree, GBDT)算法的巖性單元填圖方法(圖2):①選擇研究區(qū)內(nèi)小范圍已填圖區(qū)作為假想野外填圖區(qū),建立原始數(shù)據(jù)集并初步構(gòu)建巖性單元與預(yù)測數(shù)據(jù)(遙感、化探、物探)對應(yīng)關(guān)系;②利用機(jī)器學(xué)習(xí)方法對預(yù)測數(shù)據(jù)進(jìn)行多分類任務(wù),進(jìn)而開展目標(biāo)填圖區(qū)預(yù)測填圖工作;③通過概率選區(qū)選定概率較低目標(biāo)區(qū),開展進(jìn)一步的小范圍野外地質(zhì)調(diào)查假想填圖,對原始數(shù)據(jù)和現(xiàn)有知識進(jìn)行補(bǔ)充;④迭代循環(huán)以上流程,直至預(yù)測填圖達(dá)到要求。
圖2 基于機(jī)器學(xué)習(xí)的巖性填圖思路Fig.2 Flowchart of machine learning-based lithologic mapping
數(shù)據(jù)預(yù)處理時,若將研究區(qū)整體定義為單一柵格作為目標(biāo)選區(qū)基本單元,代表性較弱,同時易受模型分類過程中分類準(zhǔn)確率的影響。因此,需要通過對研究區(qū)進(jìn)行網(wǎng)格化劃分(圖1),將基本單元由單一柵格分解為w×h個網(wǎng)格單元,并在此基礎(chǔ)上進(jìn)行概率均值的統(tǒng)計,以此作為迭代填圖目標(biāo)選區(qū)的評判基礎(chǔ)。文中將多龍礦集區(qū)內(nèi)填圖范圍劃分成90個網(wǎng)格單元,網(wǎng)格單元面積為3.5 km×3.5 km。
針對研究區(qū)進(jìn)行網(wǎng)格化處理后,通過隨機(jī)選區(qū)的采樣策略完成初始數(shù)據(jù)集的創(chuàng)建。從研究區(qū)劃分網(wǎng)格單元中隨機(jī)選取若干單元作為目標(biāo)采樣區(qū)。通過野外地質(zhì)調(diào)查在選區(qū)內(nèi)開展地質(zhì)填圖,獲取區(qū)內(nèi)巖性單元分布情況。模型試驗將通過從已有地質(zhì)圖中直接提取選區(qū)內(nèi)的巖性單元分布來代替野外實際填圖工作。
通過距離反比權(quán)重法(IDW)對試驗區(qū)3200個地球化學(xué)數(shù)據(jù)點進(jìn)行空間插值,得到的柵格數(shù)據(jù)作為模型試驗的預(yù)測數(shù)據(jù)。將初始選區(qū)的巖性填圖結(jié)果與對應(yīng)的地球化學(xué)數(shù)據(jù)進(jìn)行標(biāo)簽化整合,完成初始數(shù)據(jù)集的創(chuàng)建。最后,通過模型訓(xùn)練建立巖性算法分類模型,根據(jù)模型評價標(biāo)準(zhǔn)實施迭代填圖,預(yù)測全區(qū)巖性分布結(jié)果,進(jìn)而探索基于GBDT算法的巖性填圖方法。
梯度提升決策樹 (Gradient boosting decision tree, GBDT)算法(Friedman, 2001)是一種采用集成學(xué)習(xí)思想的迭代決策樹算法。所謂集成學(xué)習(xí),即通過對多個學(xué)習(xí)器(如決策樹)的組合得到比單一學(xué)習(xí)器性能更好的算法模型訓(xùn)練策略。一般情況下,GBDT以決策樹(Quinlan, 1986)為基礎(chǔ)分類器,并利用損失函數(shù)的負(fù)梯度作為提升樹殘差的近似值進(jìn)行算法實現(xiàn)。其中,提升樹fM(x)可表示為:
其中,Tm(x)為弱學(xué)習(xí)器,即決策樹;γm為每個弱學(xué)習(xí)器最優(yōu)擬合的權(quán)重;M為樹的個數(shù),即迭代次數(shù)。
模型的訓(xùn)練過程是損失函數(shù)L的最小化過程。假設(shè)訓(xùn)練樣本數(shù)據(jù)量為N,第i條數(shù)據(jù)的變量與真值分別為xi和yi,則參數(shù)調(diào)優(yōu)的目標(biāo)函數(shù)為:
其中,表示訓(xùn)練完成的預(yù)測模型;L為訓(xùn)練過程中的損失函數(shù);argmin則表示最小化損失函數(shù)L時f的取值;其他變量同公式(1)。
歸一化指數(shù)函數(shù)(Softmax)是邏輯函數(shù)在多分類任務(wù)上的一種推廣,其目的是將多分類結(jié)果以概率的形式展現(xiàn)出來。若以DT表示樣本訓(xùn)練集,則DT={(xi,yi),i=1,…,nT}。 其中,xi是模型輸入的數(shù)據(jù),如用來預(yù)測巖性單元的遙感、地球化學(xué)等數(shù)據(jù);yi是對應(yīng)地質(zhì)目標(biāo)名稱,如巖性單元標(biāo)簽。假設(shè)訓(xùn)練集巖性單元種類數(shù)為K,則一般情況下nT>K。在分類問題上,GBDT的作用是計算xi與yi之間的映射函數(shù)f:R15→RK。 對于輸入的x,輸出P維特征向量ν,并代入Softmax函數(shù)計算分類概率值:
其中,pk表示屬于第k類巖性的預(yù)測概率值。根據(jù)Softmax計算公式可知,對于任一數(shù)據(jù)x,各巖性預(yù)測概率之和必為1。
文中采用GBDT作為核心算法對區(qū)內(nèi)地球化學(xué)數(shù)據(jù)與巖性單元的對應(yīng)關(guān)系開展信息挖掘與擬合工作。針對小樣本數(shù)據(jù)集,特別是當(dāng)前基礎(chǔ)預(yù)測數(shù)據(jù)小于104數(shù)量級的情況下,GBDT算法在訓(xùn)練的過程中可能會出現(xiàn)過擬合問題。目標(biāo)函數(shù)在機(jī)器學(xué)習(xí)過程中將會過度依賴訓(xùn)練樣本集,將所有樣本(包括噪聲)都擬合到函數(shù)當(dāng)中,從而只在訓(xùn)練集中表現(xiàn)優(yōu)異,對于未知樣本則無法正確預(yù)測。因此,為客觀判斷訓(xùn)練參數(shù)對訓(xùn)練集以外數(shù)據(jù)的符合程度,論文采用交叉驗證的思想對模型整體分類能力進(jìn)行評估。將樣本數(shù)據(jù)集隨機(jī)分為F個不相交子集,從F個子集中逐次選取一個子集定義為測試集,其余F-1個子集定義為訓(xùn)練集,基于訓(xùn)練集進(jìn)行訓(xùn)練得到GBDT模型。利用測試集對模型進(jìn)行分類器性能評價,將F次測試結(jié)果的均值定義為F折交叉驗證下模型性能指標(biāo),并以此來評估模型精度。此外,需要在交叉驗證基礎(chǔ)上進(jìn)行多次參數(shù)調(diào)優(yōu),得到更為合理的模型參數(shù),以保證訓(xùn)練得到的GBDT模型具備較強(qiáng)的分類能力。
根據(jù)每次迭代過程中對模型進(jìn)行多次訓(xùn)練的結(jié)果(圖3)可知,經(jīng)過300次訓(xùn)練后模型表現(xiàn)趨于平穩(wěn),損失值基本穩(wěn)定在0.2。這說明即使對于較為復(fù)雜的多分類問題,該模型仍具有較強(qiáng)的有效性和穩(wěn)定性。
圖3 模型損失函數(shù)統(tǒng)計圖Fig.3 Statistical diagram of the loss function
從概率角度選定網(wǎng)格單元,將其作為目標(biāo)填圖區(qū)進(jìn)行針對性的迭代填圖,并逐步更新預(yù)測分類數(shù)據(jù)集是此次研究思路核心之一。迭代填圖這一思路作為整套方法流程中最主要的數(shù)據(jù)與知識補(bǔ)充過程,其準(zhǔn)確性高低將對最終出圖結(jié)果造成直接影響。與傳統(tǒng)巖性填圖相結(jié)合,通過專家野外填圖的方式完成概率選區(qū)范圍內(nèi)的信息采集工作,在保證結(jié)果精度的前提下減少傳統(tǒng)巖性填圖的野外實際工作量。在具體實施過程中,根據(jù)研究區(qū)預(yù)測概率分布結(jié)果(圖4),以網(wǎng)格為基本單元進(jìn)行概率均值計算。按概率高低對全部單元進(jìn)行排序,選取其中概率最低的若干網(wǎng)格單元(圖4中黑框位置)作為目標(biāo)區(qū)域,開展野外局部實地填圖。將填圖區(qū)巖性分類結(jié)果與對應(yīng)的地球化學(xué)數(shù)據(jù)進(jìn)行整合,并更新至樣本數(shù)據(jù)庫。
圖4 概率分布選區(qū)示意圖Fig.4 Schematic diagram of probability distribution-based area selection
模型評價主要包括適用性和實用性評價兩個方面。模型適用性評價主要是從算法角度評價GBDT模型對地質(zhì)問題的適用性。針對從區(qū)內(nèi)網(wǎng)格中選取的野外填圖區(qū),根據(jù)野外填圖獲得巖性分布,按比例劃分出預(yù)測評價區(qū)。訓(xùn)練模型應(yīng)用于預(yù)測區(qū)獲得相應(yīng)的巖性分類結(jié)果。以地質(zhì)圖為真值統(tǒng)計分類結(jié)果的準(zhǔn)確率、宏平均F1分?jǐn)?shù)等模型評價指標(biāo),并根據(jù)各類指標(biāo)情況進(jìn)行模型修正。
模型實用性評價主要是從預(yù)測概率角度評價預(yù)測結(jié)果對預(yù)期分類結(jié)果的滿意程度。預(yù)測概率值是將模型輸出值與各類巖性單元特征向量之間的殘差通過Softmax函數(shù)進(jìn)行歸一化計算獲得。概率值高低代表當(dāng)前地球化學(xué)數(shù)據(jù)分類結(jié)果與各巖性單元類型的相近程度。假設(shè)已知專家填圖區(qū)巖性單元種類集合為S,則概率分布高值區(qū)通常代表當(dāng)前第i區(qū)域分類ki∈S,低值區(qū)表示當(dāng)前分類范圍較大可能存在實際巖性單元種類ki?S的情況?;谝陨显瓌t,將模型預(yù)測概率與預(yù)期結(jié)果進(jìn)行對比。若滿足,則將模型應(yīng)用于全區(qū)地球化學(xué)數(shù)據(jù)并預(yù)測全區(qū)巖性單元分類,否則,進(jìn)行迭代填圖,直至滿足預(yù)期。
文中采用準(zhǔn)確率(Accuracy,簡記Ac)、宏平均精確率(Macro Average Precision,簡記Pr)、宏平均召回率(Macro Average Recall,簡記Re)以及宏平均F1分?jǐn)?shù) (Macro AverageF1,簡記F1)等指標(biāo)對基于機(jī)器學(xué)習(xí)方法的巖性單元分類任務(wù)進(jìn)行性能評估。其中,準(zhǔn)確率表示正確預(yù)測的樣本比例,宏平均精確率表示預(yù)測為正樣本中正確的比例,宏平均召回率表示正樣本中預(yù)測正確的比例;宏平均F1分?jǐn)?shù)是兼顧宏平均精確率與宏平均召回率的調(diào)和平均數(shù)。
假設(shè)混淆矩陣G:
其中,K表示巖性種類數(shù)。
在混淆矩陣G中準(zhǔn)確率、宏平均精確率、宏平均召回率以及宏平均F1分?jǐn)?shù)的計算公式:
其中,gaa表示a類巖性預(yù)測正確的數(shù)量;gab表示a類巖性預(yù)測為b類的數(shù)量。
利用上文所述方法在多龍礦集區(qū)開展巖性單元預(yù)測分類模型試驗,獲得了迭代過程各階段的模型評價指標(biāo)。結(jié)果顯示,采用概率選區(qū)原則進(jìn)行數(shù)據(jù)樣本逐步更新的思路具有良好表現(xiàn),各指標(biāo)隨迭代均保持遞增(表1)。以準(zhǔn)確率為例,該指標(biāo)表示當(dāng)前分類結(jié)果與該區(qū)實際填圖獲得的巖性單元的匹配程度。模型經(jīng)過7次迭代更新,準(zhǔn)確率從初始47.3%增加至87%,性能提升近一倍。
表1 模型迭代性能統(tǒng)計表Table 1 Performance of model iteration
同時,結(jié)果顯示7次迭代后野外實際填圖的累計范圍占研究區(qū)面積的62.2%(表2),即,在全區(qū)約2/3范圍內(nèi)開展野外填圖的情況下,獲得了與傳統(tǒng)填圖方法相近的巖性分類結(jié)果,說明文中提出的預(yù)測填圖方法在巖性填圖工作中的效率。根據(jù)已有地質(zhì)圖可知,區(qū)內(nèi)巖性單元種類數(shù)為20。巖性單元預(yù)測種類數(shù)在7次迭代過程中由13類增加至19類,覆蓋率達(dá)到95%。經(jīng)統(tǒng)計發(fā)現(xiàn),由于石英脈在研究區(qū)面積占比極少,僅為0.007%,缺少足夠的數(shù)據(jù)樣本,未能在研究中成功預(yù)測分類。由此可見,該研究方法從概率的角度定義迭代填圖范圍具有較高可行性。
表2 迭代分析結(jié)果信息統(tǒng)計表Table 2 Statistics table of iteration results
從7次迭代后的預(yù)測分類結(jié)果來看(圖5),在巖性單元分布較為復(fù)雜且多類型交替出現(xiàn)的場景下,相應(yīng)的巖性單元邊界仍能被有效地劃分。該方法通過機(jī)器學(xué)習(xí)算法進(jìn)行分類,提高了巖性單元填圖的工作效率。同時,與野外填圖結(jié)果對比發(fā)現(xiàn)具有較高的吻合度,體現(xiàn)了對巖性單元預(yù)測分類的準(zhǔn)確性。
圖5 多龍礦集區(qū)巖石單元預(yù)測結(jié)果Fig.5 Prediction results of lithologic units in the Duolong mineral district
模型試驗經(jīng)過7次迭代后,預(yù)測概率達(dá)到預(yù)期要求,分類結(jié)果涉及19類不同巖性單元。采用宏平均F1分?jǐn)?shù)對各類單元進(jìn)行精度評價(表3),模型分類精度整體表現(xiàn)優(yōu)秀,各類預(yù)測精度均值達(dá)到0.845,其中5類超過0.9,僅有1類不足0.7,占比5%。最高為, 達(dá)到0.935,且該巖性單元僅占全區(qū)面積的0.47%,這說明該方法對于研究區(qū)面積占比較低的巖性單元仍具備較高的識別能力。最低為βμ,宏平均F1分?jǐn)?shù)僅有0.683,但具備同等地球化學(xué)元素組成的,其宏平均F1分?jǐn)?shù)達(dá)到了0.8,反映了該方法雖然對以巖石結(jié)構(gòu)特征命名的地質(zhì)單元無法有效區(qū)分,但對具備相同地球化學(xué)元素特征的巖性大類仍具備較高準(zhǔn)確度。此外,通過預(yù)測結(jié)果與已知結(jié)果對比發(fā)現(xiàn),第四紀(jì)區(qū)域預(yù)測與原地質(zhì)圖有一定差別。經(jīng)遙感查證,在排除第四系沖積扇區(qū)域之后,原1∶5萬圖幅的第四系分布范圍內(nèi)局部顯示了露頭出露,表明該方法對已有填圖工作有部分修正作用。由于地球化學(xué)元素反演礦化蝕變的天然優(yōu)勢,該方法對蝕變區(qū)域的有效識別,可產(chǎn)生重要的經(jīng)濟(jì)價值。
表3 模型分類精度表Table 3 Table of classification accuracy of the current model
文中提出了一種基于GBDT算法的巖性單元預(yù)測分類方法,將西藏多龍礦集區(qū)作為試驗區(qū),以1∶5萬勘查地球化學(xué)數(shù)據(jù)為例,對巖性填圖方法進(jìn)行了有益的探索。研究強(qiáng)調(diào)了野外地質(zhì)填圖與基于機(jī)器學(xué)習(xí)預(yù)測分類方法的深度融合,以及野地質(zhì)調(diào)查工作在巖性預(yù)測填圖工作中的重要性和不可或缺性。在強(qiáng)調(diào)野外地質(zhì)調(diào)查重要性的基礎(chǔ)上,將巖性填圖工作融入了機(jī)器學(xué)習(xí)方法。通過小范圍野外人工填圖迭代更新數(shù)據(jù)與知識庫,從而對全區(qū)進(jìn)行巖性單元預(yù)測分類工作。該方法是對巖性單元填圖工作思路和流程的探索,是對現(xiàn)有工作模式的一種有益補(bǔ)充與輔助優(yōu)化;體現(xiàn)了“基于大數(shù)據(jù)理論方法來促進(jìn)地質(zhì)問題的解決,并不意味著取代或摒棄地學(xué)傳統(tǒng)方法,而在于激活、提升和創(chuàng)新發(fā)展傳統(tǒng)方法”這一大數(shù)據(jù)科學(xué)范式在地質(zhì)科學(xué)研究中的特點和優(yōu)勢。
傳統(tǒng)巖性填圖方法通常要求對穿越地質(zhì)體最多、地質(zhì)構(gòu)造復(fù)雜的路線進(jìn)行復(fù)雜詳盡的野外調(diào)查工作,文中采用概率選區(qū)的方式來確定迭代填圖過程中的目標(biāo)填圖區(qū),使整個巖性填圖過程更具有針對性與高效性。根據(jù)試驗結(jié)果對比研究區(qū)
地質(zhì)圖,該方法基于62.2%的已知研究區(qū)信息,有效實現(xiàn)了87%研究區(qū)范圍內(nèi)的巖性單元分類。這一結(jié)果證明該方法不僅具有良好的填圖效果,而且能夠有效減輕野外填圖工作量。對在新疆、青海、西藏等野外環(huán)境條件艱苦地區(qū)的巖性填圖工作具有積極的參考作用。此外,為驗證該方法的通用性,未來可開展除化探數(shù)據(jù)以外其他數(shù)據(jù)資料,如遙感、航磁、航放、鉆井等數(shù)據(jù)資料的適用性研究,從而共同為地質(zhì)資料相對匱乏或單一的研究區(qū)開展巖性填圖工作提供有效支撐。