王思琪,王明常,王鳳艷,楊國東,張曉龍
1.吉林大學 地球探測科學與技術學院,長春 130026;2.中國地質調(diào)查局 西安礦產(chǎn)資源調(diào)查中心,西安 710100;3.自然資源部 城市國土資源監(jiān)測與仿真重點實驗室,廣東 深圳 518000
隨著遙感技術的快速發(fā)展,利用遙感數(shù)據(jù)開展找礦工作已經(jīng)成為遙感技術在礦產(chǎn)勘查領域的熱點。這種方法具有僅憑遙感圖像處理就可以反演得到地表礦化蝕變信息的優(yōu)點。遙感能夠快速獲取大面積地表信息,但極易受到其他地物干擾,造成一定的不確定性,以及反演結果的多解性,總的來說,單純應用遙感礦化蝕變信息在礦產(chǎn)勘查中的實際效果不太理想[1]。將遙感影像數(shù)據(jù)和地球化學數(shù)據(jù)結合,能夠補充信息,極大地增強了利用遙感技術開展礦產(chǎn)勘查工作的可行性。Stan Aronoff et al.[2--3]采用遙感影像數(shù)據(jù)和水系沉積物地球化學數(shù)據(jù)相結合開展礦產(chǎn)勘查工作以來,遙感地球化學在礦產(chǎn)勘查領域的應用已有40年的歷史,并得到了極大地發(fā)展。在土壤重金屬反演中,Kokaly et al.[4]通過估算土壤重金屬元素含量與遙感數(shù)據(jù)之間的擬合關系進而估算土壤元素含量;馬偉波等[5]引入了極限學習機(ELM)算法,并取得了優(yōu)于基于支持向量機(SVM)方法和偏最小二乘回歸(PLSR)方法的預測精度;陳三明等[1,6]在金川銅鎳礦外圍區(qū)域建立遙感地球化學統(tǒng)計模型,并在桂東南植被覆蓋地區(qū)融合植被抑制方法建立以主成分分析(PCA)為基礎的遙感蝕變信息提取模型;陳勇敢等[7]通過建立多元線性回歸(MLR)模型,進行遙感地球化學異常信息提取研究;姚佛軍等[8]依據(jù)元素含量和遙感光譜之間的關系,構建出4個新的遙感地球化學反演指標,對銅元素進行遙感地球化學反演分析。研究表明,基于物質電磁波相關理論,不同元素及其所形成的離子團在不同頻段波譜的吸收特征具有一定差異性,遙感影像的波譜特征與相對應地物中地球化學元素含量存在一定相關關系;趙海士等[9--10]利用極限學習機(ELM)建立地球化學數(shù)據(jù)與遙感影像之間的非線性對應關系來獲取未知地球化學異常;陳麗蓉等[11--12]提出多卷積自編碼(MCAE)方法,利用全局Moran’s I指數(shù)來確定地球化學元素背景識別域,設計多CAE獨立并行訓練結構避免信息冗余,有效提高了地球化學元素空間結構特征提取及多元異常識別能力;提出空間約束多自編碼器(SCMA)方法,通過空間域劃分得到子空間域來區(qū)分研究區(qū)內(nèi)不同的地化背景,并利用多個自編碼器對每個子空間域的地化背景進行編碼重構。在遙感地球化學反演研究中,構建遙感地球化學反演模型的方法有很多,但是由于地球化學異常分布具有不連續(xù)性、突變性和多樣性等非線性特征,傳統(tǒng)線性回歸方法很難獲得令人滿意的效果,直接影響反演的可靠度,而非線性方法則能較好地表征復雜地質背景下的地球化學異常[9--10]。綜上所述,筆者針對傳統(tǒng)線性回歸中存在的問題,基于棧式自編碼器(SAE)和極限學習機(ELM),建立SAE--ELM遙感地球化學反演模型,對研究區(qū)大比例尺地球化學數(shù)據(jù)進行反演,并通過與已知多金屬異常分布進行驗證,促進遙感技術在找礦工作中的應用。
為了去除遙感數(shù)據(jù)中存在的大量冗余信息,降低模型復雜度,首先通過棧式自動編碼器對遙感數(shù)據(jù)進行特征提取,然后將提取后的特征信息輸入極限學習機進行反演,最后用逐步截尾法對反演數(shù)據(jù)進行異常分析。
在找礦工作中,要根據(jù)元素量級關系,對研究區(qū)域進行元素的背景與異常劃分,常用的方法有逐步截尾法、襯值濾波法及趨勢面法等。逐步截尾法是按照一定的準則將長尾截去后用剩下的接近正態(tài)分布的子樣計算背景分布參數(shù)的統(tǒng)計方法。其基本原理為:
極限學習機(extreme learning machine, ELM)是Huang et al.[13--16]提出的一種單隱層前饋型神經(jīng)網(wǎng)絡監(jiān)督型學習算法,具有高精準度、盡可能少的人工干預,以及秒級、毫秒級甚至微秒級的實時學習的核心特征,在模式識別領域得到廣泛應用[17]。黃廣斌等人提出兩個定理:
定理1給定N個樣本(Xi,Yi),其中Xi=[xi1,xi2,…,xin]T∈Rn,Yi=[yi1,yi2,…,yin]T∈Rm,如果激勵函數(shù)g(x)在任意范圍內(nèi)具有無限可微的性質,在任意賦值Wi∈Rn和bi∈R的情況下,均有隱含層輸出函數(shù)H可逆且‖Hβ-YT‖=0。
定理2給定N個樣本(Xi,Yi),其中Xi=[xi1,xi2,…,xin]T∈Rn,Yi=[yi1,yi2,…,yin]T∈Rm,以及任意小誤差ε>0,如果激勵函數(shù)g(x)在任意范圍內(nèi)具有無限可微的性質,在任意賦值Wi∈Rn和bi∈R的情況下,總存在一個隱含層神經(jīng)元個數(shù)為l(l≤N)的神經(jīng)網(wǎng)絡,使得‖Hn×lβl×m-YT‖<ε成立。
對于一個有L個隱層節(jié)點的單隱層神經(jīng)網(wǎng)絡,可以表示為:
式中:g(x)為激活函數(shù);Wi=[Wi,1,W1,2,…,Wi,n]T為輸入權重;Wi·Xj表示W(wǎng)i和Xj的內(nèi)積;βi為輸出權重;bi是第i個隱層單元的偏置;oj是第j個樣本的網(wǎng)絡輸出。
根據(jù)上述定理,若L≤N,且g(x)無限可微,隨機初始化輸入權重W和偏置值b,確定激活函數(shù)g(x)和隱含層神經(jīng)元個數(shù)L,就可以通過求解最小二乘解:
得到輸出權重:
式中:H+為隱含層輸出矩陣的摩爾--彭若斯廣義逆。
棧式自動編碼器(stacked auto-encoder, SAE) 主要用于對數(shù)據(jù)的降維特征提取,由多層自動編碼器組成的[18--20]。
棧式自動編碼器首先要確定參數(shù),用貪心算法逐層訓練每一層自動編碼器,對整個深度神經(jīng)網(wǎng)絡進行預訓練。用樣本集訓練第一層自動編碼器,獲得參數(shù),然后將隱藏層輸入下一個自動編碼器,通過上述方法逐層學習參數(shù),直至最后。預訓練之后,在最上層添加一個分類器,用標簽樣本來調(diào)整分類器的參數(shù),并對網(wǎng)絡中所有參數(shù)進行微調(diào),使模型達到理想的效果。
棧式自動編碼器--極限學習機(SAE--ELM)是由棧式自動編碼器和極限學習機兩種算法組合的神經(jīng)網(wǎng)絡,用棧式自動編碼器對原始輸入數(shù)據(jù)的特征提取,用極限學習機來完成分類任務。棧式自動編碼器的預訓練過程,與上述方法一致,用貪心算法進行逐層訓練,將前一個自動編碼器的隱藏層輸入下一個自動編碼器,預訓練之后,將極限學習機作為分類器添加在模型最上層。由于極限學習機具有參數(shù)少、精度高的特點,不需要再對網(wǎng)絡中所有參數(shù)進行微調(diào)。
給定N個樣本(Xi,Yi),其中Xi=[xi1,xi2,…,xin]T∈Rn,Yi=[yi1,yi2,…,yin]T∈Rm,將Xi輸入第1層自動編碼器,得到隱藏層輸出Hi1=f1(Xi),依次向后傳遞至第n層,得到Hin=fn(Hin-1),使用極限學習機作為分類器,并將輸入極限學習機中進行元素反演。
研究區(qū)大地構造位置屬于華南褶皺系贛湘粵桂褶皺帶,地處湘南揚子古陸與華夏古陸之間的南嶺構造巖漿帶中東段北緣,與粵北南北向構造帶交叉復合部位。區(qū)域內(nèi)巖性復雜,各類花崗巖發(fā)育。區(qū)內(nèi)最主要成礦有利位置多處于燕山期花崗巖與震旦系、寒武系及泥盆系地層接觸部位,目前已發(fā)現(xiàn)有柿竹園鎢錫鉍鉬多金屬礦區(qū)、瑤崗仙鎢礦、白云仙鎢礦和圳口鎢礦等多個礦床[20]。
實驗采用的地球化學數(shù)據(jù)為1∶200 000郴縣幅化探數(shù)據(jù),共有采樣點1 860個,分析元素39種,區(qū)內(nèi)多金屬礦點分布較多,根據(jù)研究區(qū)已知礦點類型,選取銅、鉛、鋅、鎢、鉬等進行遙感地球化學反演。
實驗采用的遙感影像為Landsat 8影像。Landsat 8搭載陸地成像儀(OLI)和熱紅外傳感器(TIRS),包含11個波段,OLI包括9個波段,波段1為海岸波段,波段2~4為可見光波段,波段5為近紅外波段,波段6~7為短紅外波段,波段9為卷云波段,空間分辨率為30 m,波段8為全色波段,空間分辨率為15 m,TIRS包括2個熱紅外波段,分辨率100 m。根據(jù)Landsat 8遙感影像各波段特征,選取第2~7波段共6個原始波段進行后續(xù)反演模型的訓練。研究區(qū)遙感影像由4幅遙感影像拼接裁剪而成(行列號為122/42,122/43,123/43,122/42),影像獲取時間為2016年12月。通過輻射校正、大氣校正、歸一化處理、影像融合與裁剪對獲取的遙感影像數(shù)據(jù)進行預處理后,得到研究區(qū)遙感影像數(shù)據(jù)的假彩色合成圖(圖2)。
圖2 研究區(qū)Landsat8遙感影像假彩色合成圖(紅:6波段;綠:4波段;藍:2波段)Fig.2 False color composite map of Landsat 8 images in study area (red:band6;green:band4;blue:band2)
提取遙感影像數(shù)據(jù)。根據(jù)采樣點位置,從遙感影像中提取出對應的波段信息,作為后續(xù)反演模型的遙感特征集合,進行遙感地球化學反演模型訓練。
以遙感原始波段組合為自變量,地球化學數(shù)據(jù)為因變量,分別對各元素建立反演模型。按照訓練數(shù)據(jù):測試數(shù)據(jù)=4∶1對數(shù)據(jù)進行隨機劃分,訓練數(shù)據(jù)記為X_train、Y_train,用于模型訓練過程;測試數(shù)據(jù)記為X_test、Y_test,用于模型檢驗。
從反演模型預測誤差和元素異常區(qū)域空間分布兩個方面對模型有效性進行評價。采用相對誤差對預測精度進行評估,再將異常區(qū)域進行對比進行實用性評估
采用平均相對誤差對模型進行檢驗(表1)。
表1 反演平均相對誤差表Table 1 Mean relative errors of inversion
通過對比可發(fā)現(xiàn),基于SAE--ELM反演結果的平均相對誤差小于基于ELM反演結果的誤差,和真實數(shù)據(jù)具有更好的一致性,SAE--ELM算法的反演預測能力優(yōu)于傳統(tǒng)ELM算法。
圖3 元素異常對比圖Fig.3 Element anomaly comparison graphs
通過對比反演異常圖和原始異常圖中各元素異常區(qū)域分布范圍和異常強度可發(fā)現(xiàn),反演得到的異常帶基本涵蓋原始數(shù)據(jù)圈定的異常帶,在空間分布上對應良好,說明SAE--ELM反演模型能夠體現(xiàn)出區(qū)域地球化學特征,遙感地球化學反演數(shù)據(jù)較原始數(shù)據(jù)具有更強的異常識別能力。
(1)基于SAE-ELM算法,依據(jù)1∶20萬郴縣幅化探數(shù)據(jù),對研究區(qū)內(nèi)銅、鉛、鋅、鎢、鉬等元素建立了遙感地球化學非線性模型,進行大范圍地球化學異常預測反演,并通過地球化學數(shù)據(jù),從模型精度和空間分布兩方面驗證模型的有效性。
(2)實驗結果表明,在模型精度上,基于SAE--ELM的遙感地球化學反演數(shù)據(jù)精度較高,各元素反演數(shù)據(jù)相對誤差的平均值達到0.222,證明了SAE--ELM反演模型的有效性;在空間分布上,多金屬元素反演異常分布帶與地球化學異常區(qū)域對應關系良好,并具有減弱采樣因素影響,突出高度異常的優(yōu)勢;在實際應用上,能夠有效補充原始地球化學測量數(shù)據(jù),為地質勘查找礦工作提供了一種提取多金屬元素異常的有效方法。