劉翰霖,李根軍,林 楠,楊雪松
(1.吉林建筑大學,吉林 長春 130118;2.青海省地質調(diào)查院,青海 西寧 810008;3.青海坤拓遙感技術服務有限公司,青海 西寧 810007)
隨著礦產(chǎn)資源的高強度急速消耗,多處礦山因長期透支開采逐漸枯竭,利用傳統(tǒng)的地球物理、地球化學方法進行礦產(chǎn)資源勘查,不僅費時費力、經(jīng)濟成本巨大,而且經(jīng)常會出現(xiàn)生態(tài)環(huán)境污染問題。因此,在礦產(chǎn)資源勘查和生態(tài)環(huán)境保護雙重目標下,如何利用高新技術準確、快速、有效地開展綠色勘查工作,減少地表工程揭露,保護周邊生態(tài)環(huán)境,是目前礦產(chǎn)資源勘查急需解決的首要問題[1]。高光譜遙感技術能在準確區(qū)分巖礦類型的同時,定量分析礦物成分,是一種快速、大面積、低成本觀測巖礦物質組成的有效技術手段[2-4]。隨著統(tǒng)計學習理論在遙感地質領域研究的不斷深入,支持向量機、隨機森林、多層感知神經(jīng)網(wǎng)絡等機器學習算法逐漸被引入巖性信息識別和蝕變礦物提取中,并取得了一定的研究成果;但上述方法針對高光譜遙感多源數(shù)據(jù),通常存在計算復雜度較高、模型過擬合等問題,因此有必要探索一種新方法來實現(xiàn)高光譜蝕變信息的高精度分離。極端隨機樹是在隨機森林基礎上發(fā)展而來的新型機器學習算法,具有較高的魯棒性和泛化能力,能在保證算法穩(wěn)定性的同時加快復雜數(shù)據(jù)集合的運算速率,精度更高[5-7]。目前,極端隨機樹算法的優(yōu)越性能已引起科學研究領域的廣泛重視,被應用于醫(yī)學、經(jīng)濟學、計算機科學等領域,但在遙感蝕變信息的相關研究中還較少見[8-10]。鑒于此,本文以青海溝里地區(qū)為研究對象,基于資源一號02D(ZY1-02D)高光譜遙感影像數(shù)據(jù),結合蝕變礦物波譜特征,利用極端隨機樹算法提取礦化蝕變信息,并通過已知地質礦產(chǎn)資料評價和分析提取效果。本文成果能促進高光譜遙感技術在礦產(chǎn)勘查中的有效應用,為青海溝里地區(qū)礦產(chǎn)資源高效開發(fā)利用和生態(tài)環(huán)境保護提供技術保障。
青海溝里地區(qū)地處柴達木盆地南緣,位于東昆侖礦山活動斷裂帶東段,是我國重要的金礦產(chǎn)地,素有“金腰帶”美稱。該地區(qū)多旋回造山運動極為發(fā)育,曾歷經(jīng)多期次擴張—收縮和俯沖造山作用,使得出露地層單元呈現(xiàn)成層無序的組合特征,產(chǎn)生時代跨度大的獨特分布趨勢,廣泛存在于太古宇至新近紀的各個地質時期。區(qū)內(nèi)構造活動頻繁,以壓性或壓扭性斷裂為主,走向為北西西向,多表現(xiàn)為逆沖特征,包括北界斷裂、狼日扎崗—龍里—尕之麻斷裂和東昆中斷裂等;巖漿活動強烈,侵入巖種類豐富,主要集中于加里東期—印支造山旋回的不同階段,由奧陶紀、志留紀、二疊紀和晚三疊紀中酸性侵入巖組成,以花崗巖類侵入巖巨量出露為典型特征。研究區(qū)礦產(chǎn)資源豐富,以金、銀、鉛、鋅、銅為主,其中巖漿熱液型金礦床分布較廣,褐鐵礦、綠泥石、方解石、高嶺土等蝕變礦物在區(qū)內(nèi)地表出露面積較大,且光譜特征典型,可利用高光譜遙感影像開展分類提取實驗研究,對進一步的礦產(chǎn)勘查和礦產(chǎn)潛力評價具有指示意義。
ZY1-02D衛(wèi)星攜帶有可見光近紅外相機和高光譜相機,2019 年10 月發(fā)射升空,軌道高度為778 km,重訪時間為3 d。ZY1-02D高光譜數(shù)據(jù)共包含166個波段,光譜范圍為0.40~2.50 μm,光譜分辨率在可見光和短波紅外分別為10 nm、20 nm,空間分辨率為30 m,可有效獲取地球表面地物光譜信息,為蝕變礦物提取提供可靠的數(shù)據(jù)支持。本文選取覆蓋青海溝里地區(qū)的3 景ZY1-02D 高光譜數(shù)據(jù)(L1A0000172721、L1A0000172720、L1A0000181506),衛(wèi)星過境時間為8—10月,該時間段內(nèi)地面無積雪覆蓋。
由于原始影像上記錄地物信息的灰度值是一個無量綱數(shù)值,需按照給定的衛(wèi)星定標文件讀入每個波段的波長范圍、中心波長和信息增益值,利用ENVI 5.3軟件的輻射定標模塊自動提取定標參數(shù),并將衛(wèi)星搭載的成像光譜儀接收的DN 值轉化為大氣外層表觀反射率[11]。本文采用MODTRAN 5 理論模型,通過ENVI軟件的FLAASH 模塊對影像進行大氣校正[12]。為保證遙感影像的幾何精度、修正幾何畸變,將控制點擬合中誤差設定為1.5~2個像元,在每景影像上選取分布均勻的15個控制點,利用二次多項式糾正法對ZY1-02D影像進行幾何校正,消除影像幾何位置誤差[13]。由于云霧和信息缺失等因素影響,幾何校正后的影像數(shù)據(jù)并不能直接用于實驗研究[14],本文分別對影像進行幾何鑲嵌、灰度鑲嵌,得到覆蓋研究區(qū)的完整影像。
2.3.1 基于光譜角匹配技術的樣本選取
精確選擇訓練樣本是利用機器學習算法進行礦物識別的關鍵。為增強訓練樣本的代表性和可靠度,本文采用光譜角匹配技術選取訓練樣本。光譜角匹配是通過計算目標光譜與參考光譜間廣義夾角來表征光譜相似程度的監(jiān)督分類方法,通常夾角越小,相似度越大,代表匹配效果越佳[15-16],數(shù)學表達式為:
式中,n為高光譜數(shù)據(jù)的波段數(shù);ti為目標光譜第i波段的反射率值;ri為參考光譜第i波段的反射率值。
以USGS 光譜庫中的褐鐵礦、綠泥石、方解石和高嶺土礦物光譜為標準光譜,將光譜按照ZY1-02D影像波長范圍進行重采樣;基于光譜角匹配技術,以0.15 弧度為分割閾值,分別提取研究區(qū)內(nèi)4 種典型礦物像元的光譜,以此為模型建模的光譜樣本數(shù)據(jù)集,褐鐵礦、綠泥石、方解石、高嶺土分別提取了267個、179個、235個、187個端元光譜。
2.3.2 基于極端隨機樹的礦化蝕變信息提取
極端隨機樹算法最早由比利時列日大學電氣工程與計算機科學系的Geurts P教授在2006年提出,是隨機森林算法的推廣形式[17],二者都具有不易過擬合、抗噪性能良好、運算效率高等優(yōu)點,但在選取訓練樣本和分裂節(jié)點方面存在差異。隨機森林算法采用有放回抽樣方法獲取樣本數(shù)據(jù),通過隨機組建特征屬性集合,篩選最優(yōu)屬性作為分裂節(jié)點進行決策樹訓練,存在訓練數(shù)據(jù)集重復性升高、樣本數(shù)據(jù)利用率降低和基學習器間相似程度加深等缺陷;而極端隨機樹算法則利用未進行重采樣的全部樣本數(shù)據(jù),選取隨機生成的分類節(jié)點進行分裂,基于“誤差—分歧分解”理論,依靠多顆決策樹的組合來完成模型的訓練過程[18],對于小樣本數(shù)據(jù)集具有更好的平滑性,在處理強噪聲和高維模式的信息識別和分類問題中具有獨特優(yōu)勢[19-20]。極端隨機樹算法原理見圖1。
圖1 極端隨機樹算法原理
高光譜影像存在波段數(shù)量多、數(shù)據(jù)體量大、波段間信息冗余度高和共線性強等問題,為消除波段冗余信息對極端隨機樹算法識別效果的影響,本文基于主成分分析法,通過正交變換將共線性高的波段數(shù)據(jù)轉換為線性不相關變量來提取主成分,以累積貢獻率95%為閾值,基于光譜角提取的訓練樣本,分別對4 種蝕變礦物進行特征波段篩選,結果表明經(jīng)主成分分析法降維后的波段數(shù)占總波段數(shù)的10.60%~11.92%,褐鐵礦、綠泥石、方解石和高嶺土的光譜波段數(shù)分別被降至16 個、17 個、16 個和18 個,降低了波段間光譜信息的冗余性和模型計算的復雜性。
準確、快速、高效地確定模型的內(nèi)部關鍵參數(shù),能有效提高模型分類精度和泛化性能。CART 決策樹是極端隨機樹算法的基學習器,其生長深度(樹深)和數(shù)量是極端隨機樹算法的兩個重要建模參數(shù)。本文利用網(wǎng)格搜索—交叉驗證方法分別對4種礦物蝕變信息提取模型進行參數(shù)尋優(yōu)計算,以準確率為優(yōu)化目標函數(shù)的適應度值,經(jīng)多次迭代計算,分別得到各礦物識別模型在準確率最高時對應的最佳參數(shù)組合(表1)。
表1 極端隨機樹算法關鍵參數(shù)尋優(yōu)結果
利用主成分分析得到的特征波段數(shù)據(jù)集,基于尋優(yōu)計算得到的最佳參數(shù)組合,分別構建4 種礦物的提取模型,提取研究區(qū)礦化蝕變信息,結果見圖2。
圖2 基于極端隨機樹算法的蝕變信息提取結果
為驗證極端隨機樹算法在研究區(qū)內(nèi)礦化蝕變信息的提取效果,將提取結果分別與區(qū)內(nèi)斷裂構造和已知礦床(點)分布進行空間疊加分析(圖3),可以看出,蝕變礦物主要分布在構造行跡旁側或其與次級構造交匯處,少量散布于主要構造行跡與其他構造的交切地段,與斷裂構造的空間展布趨勢具有很高的相似性;模型提取的蝕變信息主要以西北—東南向分布于地質構造帶兩側的巖體中,且在金屬礦床(點)周邊地區(qū)也存在大量的蝕變信息;在研究區(qū)東南部模型同樣提取出大量不同類型的蝕變信息,此處雖無已知礦(床)點分布,但成礦地質環(huán)境較優(yōu)越,受斷裂控制明顯,三疊世洪水川組和二疊-石炭世浩特洛哇組的碳酸鹽巖地層為該地段的主要地層,中志留世和中奧陶世的花崗閃長巖為其主要侵入巖體,因此該地段形成熱液型金礦床的概率較大,可作為以后礦產(chǎn)勘查的重點地區(qū)。
圖3 基于地質特征的空間定性分析結果
為對比分析極端隨機樹算法的蝕變信息提取效果,本文分別利用基于光譜特征的混合調(diào)諧匹配濾波模型(MTMF)和支持向量機模型進行蝕變信息提取的對比實驗[21-22]。支持向量機模型與極端隨機樹模型的構建過程基本一致,同樣采用光譜角匹配技術獲取樣本數(shù)據(jù)集來完成模型的訓練。MTMF 模型首先基于MNF變換方法消除噪聲影響,獲取信息豐富波段;再采用MNF逆變換方法進行光譜重建,得到富含主要信息的地物真實反射率數(shù)值;然后利用已有樣本數(shù)據(jù),經(jīng)均值計算得到端元平均光譜,并根據(jù)波譜MNF變換方法獲取參考光譜反射率曲線,以此為基準與影像MNF變換結果進行濾波匹配;最后得到礦化蝕變信息提取結果。將3 種模型提取的礦化蝕變信息分布與區(qū)內(nèi)已知的13個礦床(點)進行空間疊加分析,采用吻合度指標來評價模型提取效果,數(shù)值越高,代表蝕變信息識別精度越好;反之,則越差,數(shù)學表達式為:
式中,Lin為已知礦床(點)落在提取的礦化蝕變區(qū)域的個數(shù);Ltotal為研究區(qū)已知礦床(點)總數(shù)。
計算得到的吻合度情況見表2,可以看出,極端隨機樹模型的識別效果最好,各類礦物信息的吻合度均在0.46以上,其中褐鐵礦識別效果最佳,其分布范圍與8 個已知礦點空間位置吻合,體現(xiàn)了極端隨機樹模型在穩(wěn)定性和識別精度方面的優(yōu)越性;MTMF 模型的識別效果最差,方解石、高嶺土的吻合度均低于0.4;支持向量機模型提取的各類礦物吻合度差異較大,除綠泥石外,褐鐵礦、方解石、高嶺土的吻合度均高于MTMF模型,說明基于機器學習算法構建的信息識別模型提取效果優(yōu)于傳統(tǒng)的光譜匹配算法。
表2 礦床吻合度計算結果
本文利用ZY1-02D高光譜遙感數(shù)據(jù),基于極端隨機樹算法構建礦化蝕變信息提取模型,對青海溝里地區(qū)典型礦物的提取進行了研究,并結合區(qū)內(nèi)已知地質礦產(chǎn)資料對提取效果進行了評價。結果表明,結合光譜角和極端隨機樹算法的蝕變礦物提取模型對于各類礦物的提取效果明顯優(yōu)于MTMF模型和支持向量機模型,且提取的礦化蝕變信息分布范圍與區(qū)內(nèi)斷裂構造展布特征以及已知礦床(點)的分布規(guī)律基本吻合,蝕變礦物的總體識別效果較好,可靠性較高,證明了機器學習算法在高光譜蝕變信息提取工作中的優(yōu)越性,基于集成學習思想的極端隨機樹模型可作為礦產(chǎn)資源開發(fā)的有效技術手段加以利用。此外,極端隨機樹算法對于關鍵建模參數(shù)響應敏感,本文利用網(wǎng)格搜索—交叉驗證方法,以準確率為適應度函數(shù)進行簡單參數(shù)尋優(yōu),但該方法運算效率低、收斂速度過慢,在后續(xù)的研究工作中可引入群智能優(yōu)化算法,用以探求不同參數(shù)尋優(yōu)方法對蝕變信息提取結果的影響程度,提升礦化蝕變信息的提取精度。