任 鈺,汪海城,張生元,宋澤峰,陳文靜
(1.河北地質(zhì)大學(xué) 信息工程學(xué)院,河北 石家莊 050031;2. 河北地質(zhì)大學(xué) 資源與環(huán)境工程研究所,河北 石家莊 050031)
黏土礦物是在地表風(fēng)化作用中形成的,在沉積和埋藏作用下容易發(fā)生轉(zhuǎn)變,其形成與轉(zhuǎn)化與所處環(huán)境有密切關(guān)系[1-2]。黏土礦物的膨潤(rùn)性、離子交換性、強(qiáng)吸附性等特殊屬性,使得黏土礦物在氣候、石油勘探、環(huán)境等學(xué)科研究中具有重要意義。利用不同地區(qū)黏土礦物組合差異性可以推測(cè)出當(dāng)時(shí)的成巖或氣候條件,恢復(fù)古氣候[3-8]。黏土礦物平面分布可以反應(yīng)儲(chǔ)層沉積體系的復(fù)雜性,利用黏土礦物可以對(duì)儲(chǔ)層敏感性進(jìn)行評(píng)價(jià)[9-11]。受源區(qū)母巖類型、環(huán)境氣候及成土?xí)r間等因素的影響,不同地區(qū)的黏土礦物含量分布有較大的差異,因此黏土礦物的分布特征具有空間異質(zhì)性和復(fù)雜性,黏土礦物的空間分布模式已成為黏土礦物的重要研究方向之一。黏土礦物分析數(shù)據(jù)較少,若重新采樣分析,周期長(zhǎng)、成本高,因此獲取黏土礦物大范圍的含量分布較為困難[12]。目前國(guó)內(nèi)積累了覆蓋大部分面積的中大比例尺地球化學(xué)數(shù)據(jù),具有分析元素多、精度高的特征,而黏土礦物是由多種水合硅酸鹽和一定量的氧化鋁、堿金屬氧化物和堿土金屬氧化物組成,并含有石英、長(zhǎng)石、云母及硫酸鹽、硫化物、碳酸鹽等雜質(zhì),是地球化學(xué)元素的復(fù)雜組合,地球化學(xué)元素含量與黏土礦物組成之間有內(nèi)在聯(lián)系,可以利用地球化學(xué)元素含量開(kāi)展區(qū)域黏土礦物分布預(yù)測(cè)研究。BP神經(jīng)網(wǎng)絡(luò)模型作為機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典模型之一,具有強(qiáng)大的非線性適應(yīng)性信息處理能力,已被廣泛應(yīng)用于地球科學(xué)數(shù)據(jù)處理中,并取得良好的效果[13-17]。本研究基于BP神經(jīng)網(wǎng)絡(luò)建立河北平原區(qū)的高嶺石、綠泥石和伊利石三種主要黏土礦物與地球化學(xué)含量之間的非線性預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)河北平原區(qū)高嶺石、綠泥石和伊利石含量的預(yù)測(cè),為后續(xù)相關(guān)研究或開(kāi)發(fā)利用提供科學(xué)依據(jù)和技術(shù)支撐。
研究區(qū)位于華北東部,東瀕渤海、南界黃河、西依太行山脈、北依燕山山脈的整個(gè)河北平原區(qū),主要由黃河、海河、淮河、灤河沖積而成,被北京和天津分割為太行山山前平原區(qū)、北三縣平原區(qū)、冀東平原區(qū)三個(gè)區(qū)域,面積約15萬(wàn)平方千米[18-19]。區(qū)內(nèi)出露地層發(fā)育,從太古界至第四系均有分布,以第四系覆蓋為主,覆蓋率約占97%(圖1)。自太行山山前平原至冀東平原,對(duì)應(yīng)沖積扇平原、沖積平原、海積平原、洪積平原等地貌類型組合,依次出現(xiàn)潮土、濱海鹽土、褐土等土壤類型。其中沖積扇平原主要由洪積沖積物組成,沖積平原主要由沖積物組成,濱海地區(qū)主要由海積物組成,平原區(qū)的湖沼、洼地有部分湖積物,洪積平原主要由洪積物組成。全區(qū)水系發(fā)育,主要屬于海河水系,主要五大支流分別為漳衛(wèi)河、子牙河、永定河、大清河和潮白河,其次是冀東地區(qū)的灤河水系。研究區(qū)受古氣候、古地理沉積環(huán)境及新構(gòu)造運(yùn)動(dòng)等因素影響,地下水的富水性、循環(huán)交替強(qiáng)度、水化學(xué)類型等水文地質(zhì)特征發(fā)生相應(yīng)的變化。地下水系統(tǒng)雖是具有一定時(shí)空分布特征的復(fù)雜動(dòng)態(tài)系統(tǒng),但具有明顯的邊界和層次結(jié)構(gòu)。依據(jù)地下水系統(tǒng)的水文地質(zhì)條件和地球化學(xué)特征及地下水的垂向運(yùn)動(dòng)的各種因子,將河北平原區(qū)地下水劃分為冀東沿海諸河地下水系統(tǒng)、子牙河地下水系統(tǒng)、大清河地下水系統(tǒng)、漳衛(wèi)河地下水系統(tǒng)、古黃河地下水系統(tǒng)等8個(gè)地下水系統(tǒng)[20]。
本研究收集了河北平原區(qū)多目標(biāo)地球化學(xué)調(diào)查項(xiàng)目1∶20萬(wàn)的土壤地球化學(xué)數(shù)據(jù),共20 029個(gè)土壤樣本。每個(gè)樣本分析其中21個(gè)地球化學(xué)元素,包括SiO2、Al2O3、MgO、Fe2O3、K2O、CaO、Na2O共7個(gè)主量元素,以及Mn、Ti、P、S、Cu、Pb、Zn、Co、Ni、Cr、Cd、As、Hg、Sn共14個(gè)微量元素。在此基礎(chǔ)上,此項(xiàng)目在不同地貌單元中與地球化學(xué)樣品同位置處采集了111個(gè)土壤樣本,并通過(guò)X-射線衍射分析方法獲取了111個(gè)土壤樣本中高嶺石、綠泥石、伊利石等主要黏土礦物含量。整個(gè)河北平原區(qū)中冀東平原區(qū)、北三縣平原區(qū)、太行山山前平原區(qū)部分元素含量的均值、標(biāo)準(zhǔn)差以及變異系數(shù)統(tǒng)計(jì)(表1)顯示3個(gè)平原區(qū)元素的平均值基本一致,說(shuō)明三部分平原區(qū)地球化學(xué)元素背景值近似,3個(gè)平原元素的標(biāo)準(zhǔn)差和變異系數(shù)有較大差異,其中冀東平原元素的變異系數(shù)相對(duì)其他兩個(gè)平原的變異系數(shù)較大,表明該區(qū)域元素?cái)?shù)據(jù)的離散程度較大,較高值區(qū)域和較低值區(qū)域差異明顯。
圖1 河北平原區(qū)地質(zhì)簡(jiǎn)圖
表1 河北平原區(qū)地球化學(xué)元素統(tǒng)計(jì)表
注:測(cè)試單位為河北省地礦實(shí)驗(yàn)室;主量元素量單位為wB/%,微量元素量單位為wB/10-6。
神經(jīng)網(wǎng)絡(luò)是一種模擬人腦系統(tǒng)的建模方法。1943年,McCulloch和Pitts等提出了一種模擬生物神經(jīng)元結(jié)構(gòu)的模型,被稱作莫克羅—彼特氏神經(jīng)模型(M-P模型),該模型是對(duì)生物神經(jīng)元信息處理模式的數(shù)學(xué)簡(jiǎn)化,為后續(xù)的研究工作提供了理論依據(jù)。多層M-P神經(jīng)元模型的疊加,引入了更多的非線性變換,使模型具有更好的擬合能力,各領(lǐng)域?qū)W者根據(jù)研究需要已提出了多種衍生模型,如感知機(jī)、玻爾茲曼機(jī)、受限的玻爾茲曼機(jī)、BP神經(jīng)網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于預(yù)測(cè)、語(yǔ)音識(shí)別、組合優(yōu)化、圖像處理等領(lǐng)域[21-32]。
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)系統(tǒng)的基本單元,其功能相當(dāng)于1個(gè)處理單元,神經(jīng)元以多層結(jié)構(gòu)排列,使得神經(jīng)網(wǎng)絡(luò)包括1個(gè)輸入層、1個(gè)或多個(gè)隱藏層和1個(gè)輸出層。由于信息分布于網(wǎng)絡(luò)中的各個(gè)神經(jīng)元中,神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的魯棒性和容錯(cuò)性,對(duì)數(shù)據(jù)分布要求不嚴(yán)格,具備處理數(shù)據(jù)遺漏或者錯(cuò)誤的能力,能夠處理由于地球化學(xué)元素?cái)?shù)據(jù)缺失或錯(cuò)誤等引起的輕微擾動(dòng)。神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的信息綜合能力,可協(xié)調(diào)多種輸入信息關(guān)系,充分逼近很多復(fù)雜的非線性關(guān)系,以此可模擬黏土礦物與地球化學(xué)元素之間復(fù)雜的關(guān)系[33]。神經(jīng)網(wǎng)絡(luò)可利用新樣本進(jìn)行自我訓(xùn)練,調(diào)整參數(shù),得到新的預(yù)測(cè)模型,減少一些由于樣本數(shù)據(jù)量大引起的不必要開(kāi)銷問(wèn)題,這是傳統(tǒng)學(xué)習(xí)方式不具備的能力[34]。本研究采用單隱含層神經(jīng)網(wǎng)絡(luò)建立黏土礦物與地球化學(xué)元素之間關(guān)系的模型,其網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖2。其中,神經(jīng)網(wǎng)絡(luò)的輸入為地球化學(xué)元素,輸出為黏土礦物含量預(yù)測(cè)值。
圖2 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖
預(yù)測(cè)模型決定預(yù)測(cè)結(jié)果準(zhǔn)確性,1個(gè)合適的模型能夠更充分表示數(shù)據(jù)的內(nèi)在數(shù)學(xué)關(guān)系,有利于對(duì)未知數(shù)據(jù)進(jìn)行準(zhǔn)確預(yù)測(cè)??梢酝ㄟ^(guò)建立1個(gè)驗(yàn)證集對(duì)預(yù)測(cè)模型的泛化能力進(jìn)行評(píng)估[35-36],本研究將收集到的111個(gè)黏土礦物數(shù)據(jù)樣本劃分為訓(xùn)練集和驗(yàn)證集,分別用于模型的訓(xùn)練和評(píng)估。由于數(shù)據(jù)樣本的黏土礦物含量分布不均勻,采用留出法將數(shù)據(jù)集劃分為兩個(gè)互斥的集合可能會(huì)造成網(wǎng)絡(luò)性能偏向樣本較多的數(shù)據(jù),并采取分層抽樣對(duì)數(shù)據(jù)集進(jìn)行劃分。統(tǒng)計(jì)每種黏土礦物各個(gè)含量范圍的樣本個(gè)數(shù),分別提取70%的樣本作為訓(xùn)練集,用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí),其余樣本作為驗(yàn)證集,用于評(píng)估訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型。由于地球化學(xué)元素的數(shù)量級(jí)差別較大,神經(jīng)元的輸出通常都被限制在一定的范圍內(nèi),因此需要對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,將數(shù)據(jù)映射到[0,1]范圍內(nèi)處理,避免神經(jīng)元過(guò)飽和,提升模型的收斂速度和精度[37-38]。
為了保證神經(jīng)網(wǎng)絡(luò)的非線性能力,在神經(jīng)網(wǎng)絡(luò)中引入激活函數(shù),使神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的擬合能力,可以逼近很多非線性函數(shù)[35]。為了防止梯度消失和樣本過(guò)少導(dǎo)致的過(guò)擬合問(wèn)題,本研究在神經(jīng)網(wǎng)絡(luò)的隱含層采用ReLU函數(shù)[式(1)],ReLU函數(shù)的引用同時(shí)可提高模型收斂速度[39]。為了防止樣本過(guò)少導(dǎo)致的預(yù)測(cè)值為負(fù)數(shù)問(wèn)題,在輸出層中采用Sigmoid函數(shù)[式(2)],將輸出值固定在(0,1)范圍內(nèi)。
(1)
(2)
神經(jīng)網(wǎng)絡(luò)用損失函數(shù)來(lái)判斷預(yù)測(cè)值與真實(shí)值的接近程度,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程就是最小化損失函數(shù)的過(guò)程,損失函數(shù)越小,說(shuō)明模型的預(yù)測(cè)值與真實(shí)值越接近。本研究采用了累積均方誤差作為神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)。損失函數(shù)[式(3)]中yi表示第i個(gè)樣本的真實(shí)值,y'i表示第i個(gè)樣本的預(yù)測(cè)值,n為樣本個(gè)數(shù)。
(3)
神經(jīng)網(wǎng)絡(luò)通過(guò)梯度下降調(diào)整權(quán)重與偏置,使損失函數(shù)不斷趨近于最小值,本研究采用AdaGrad自適應(yīng)梯度下降算法,為各個(gè)參數(shù)分配自適應(yīng)的學(xué)習(xí)率,加快模型收斂、減小過(guò)擬合現(xiàn)象。AdaGra自適應(yīng)梯度下降算法[式(4)]中w表示權(quán)重,t表示訓(xùn)練次數(shù),η表示學(xué)習(xí)率,g表示梯度。
(4)
利用訓(xùn)練集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在迭代訓(xùn)練過(guò)程中累積均方誤差的值不斷減小,經(jīng)過(guò)多次實(shí)驗(yàn)選擇合適的訓(xùn)練次數(shù),減少過(guò)擬合情況的發(fā)生。在進(jìn)行多次訓(xùn)練之后,訓(xùn)練集中樣本的預(yù)測(cè)值與實(shí)際值比較接近:高嶺石預(yù)測(cè)值在訓(xùn)練5萬(wàn)次時(shí)累積均方誤差為0.18,綠泥石預(yù)測(cè)值在訓(xùn)練5萬(wàn)次時(shí)累積均方誤差為0.14,伊利石預(yù)測(cè)值在訓(xùn)練2萬(wàn)次時(shí)累積均方誤差為0.13(表2)。
表2 三種黏土礦物累積均方誤差
通過(guò)驗(yàn)證集檢驗(yàn)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的泛化程度,高嶺石、綠泥石和伊利石三種黏土礦物的真實(shí)值與預(yù)測(cè)值對(duì)比折線圖(圖3、圖4、圖5)顯示,三種黏土礦物驗(yàn)證集的真實(shí)值與預(yù)測(cè)值在部分極高值和極低值處差異較大,極值處差異可能是由于模型受樣本數(shù)量限制導(dǎo)致,但整體數(shù)據(jù)趨勢(shì)基本一致,因此模型可用于河北平原區(qū)高嶺石、綠泥石以及伊利石的分布預(yù)測(cè)。
圖3 高嶺石真實(shí)值與預(yù)測(cè)值對(duì)比折線圖
圖4 綠泥石真實(shí)值與預(yù)測(cè)值對(duì)比折線圖
基于建立的黏土礦物預(yù)測(cè)模型對(duì)河北平原區(qū)多目標(biāo)地球化學(xué)調(diào)查的20 029個(gè)土壤樣品的元素?cái)?shù)據(jù)進(jìn)行區(qū)內(nèi)高嶺石、綠泥石、伊利石三種主要黏土礦物的空間分布預(yù)測(cè)。河北平原區(qū)高嶺石預(yù)測(cè)分布圖顯示(圖6),高嶺石在整個(gè)冀東平原區(qū)和北三縣平原區(qū)含量普遍偏低;高嶺石在冀東平原和太行山山前平原區(qū)的沖積扇平原含量偏高,該區(qū)域主要土壤類型為潮土,潮土黏土礦物組成一般以水云母為主,蒙脫石、蛭石、高嶺石次之,可能區(qū)內(nèi)礦業(yè)過(guò)度開(kāi)發(fā),導(dǎo)致風(fēng)化作用加速,高嶺石富集;高嶺石在太行山山前平原區(qū)的沖積平原含量高,沖積平原是由黃河、漳河、永定河等河流沖積物堆積而成,地勢(shì)平緩,土壤土體內(nèi)外排水不良,地下水位高,易生成潮土,高嶺石含量高,該區(qū)域可能受到漳衛(wèi)河、古黃河兩個(gè)地下水系統(tǒng)影響,導(dǎo)致高嶺石含量增高;高嶺石在海積平原含量低,該區(qū)域土壤類型主要為濱海鹽土,高嶺石在該區(qū)域含量偏低;高嶺石在洪積平原含量低,該區(qū)域主要由褐土組成,其黏土礦物以水化云母和水云母層鉀離子釋放而形成的蛭石為主,蒙脫石次之,少量的高嶺石出現(xiàn);高嶺石在保定和唐山等地區(qū)富集,此區(qū)域受到地下水長(zhǎng)期超量開(kāi)采影響,在地下水和一氧化碳作用下,能使巖石中的長(zhǎng)石和云母等礦物演變?yōu)楦邘X石、絹云母和其他黏土礦物,此外大量工程建筑增加、礦業(yè)開(kāi)發(fā)等人類活動(dòng)也可能導(dǎo)致高嶺石礦物的富集。
圖5 伊利石真實(shí)值與預(yù)測(cè)值對(duì)比折線圖
河北平原區(qū)綠泥石預(yù)測(cè)分布圖顯示(圖7),綠泥石在整個(gè)冀東平原區(qū)和北三縣平原區(qū)含量普遍偏低,但在沖積扇平原含量偏高,該區(qū)域主要土壤類型為潮土,導(dǎo)致綠泥石含量高,此外該地區(qū)頻繁礦業(yè)活動(dòng),亦會(huì)導(dǎo)致巖石風(fēng)化加速,使綠泥石含量發(fā)生變化;在太行山山前平原區(qū),受漳衛(wèi)河和古黃河兩個(gè)地下水區(qū)域影響,導(dǎo)致綠泥石在沖積平原含量高;綠泥石在海積平原含量較高,該區(qū)域有渤海灣,西部的塘沽是重要的港口,推測(cè)可能由于工程建筑增加或者沿海新近填土等人類活動(dòng)引起綠泥石增加,或是受到海潮高潛水位、高度礦化的影響都可能導(dǎo)致綠泥石增加;綠泥石在洪積平原含量低,該區(qū)域土壤類型主要為褐土,褐土中的綠泥石含量低;綠泥石在保定、石家莊、邯鄲、邢臺(tái)、滄州等城市地區(qū)周圍有富集,這可能與該區(qū)域的人類活動(dòng)有關(guān)。
圖6 高嶺石礦物空間分布與第四紀(jì)覆蓋物疊加圖
Fig.6 Superimposition map of spatial distribution of kaolinite mineral and Quaternary cover
圖7 綠泥石礦物空間分布與第四紀(jì)覆蓋物疊加圖
河北平原區(qū)伊利石預(yù)測(cè)分布圖顯示(圖8),伊利石在整個(gè)研究區(qū)含量較高;由于伊利石為過(guò)渡性黏土礦物,且河北平原區(qū)受氣候?yàn)?zāi)害頻繁,導(dǎo)致伊利石分布呈現(xiàn)斑點(diǎn)狀;伊利石在冀東平原的沖積扇平原以及海蝕高臺(tái)地、海蝕低階地含量偏高,該區(qū)域的沖積扇平原土壤類型主要為潮土,該區(qū)域海蝕高臺(tái)地、海蝕低階地的海水侵蝕作用可能導(dǎo)致伊利石富集;此外伊利石含量也可能受到人類活動(dòng)影響,在唐山、保定、邯鄲、衡水、滄州等城市及周邊地區(qū)局部富集。
對(duì)比高嶺石、綠泥石、伊利石三種黏土礦物相同位置實(shí)測(cè)值和預(yù)測(cè)結(jié)果(圖9),結(jié)果顯示高嶺石、綠泥石以及伊利石的真實(shí)值與預(yù)測(cè)值除部分極高值和極低值誤差較大,兩組數(shù)據(jù)整體趨勢(shì)一致,預(yù)測(cè)結(jié)果較好。三種黏土礦物預(yù)測(cè)值與真實(shí)值均值、標(biāo)準(zhǔn)差以及變異系數(shù)統(tǒng)計(jì)顯示(表3),三種黏土礦物的真實(shí)值與預(yù)測(cè)值的均值較接近,兩組數(shù)據(jù)的標(biāo)準(zhǔn)差相近,但預(yù)測(cè)值的變異系數(shù)較小,說(shuō)明預(yù)測(cè)值變異性較小,可以呈現(xiàn)研究區(qū)的三種黏土礦物的空間分布趨勢(shì)。
基于地球化學(xué)元素的黏土礦物空間分布預(yù)測(cè)為黏土礦物相關(guān)研究提供了新的思路,預(yù)測(cè)模型是利用地球化學(xué)元素開(kāi)展黏土礦物含量分布預(yù)測(cè)的基礎(chǔ),而機(jī)器學(xué)習(xí)算法已發(fā)展為建立復(fù)雜空間關(guān)系模型的有效工具。本研究利用經(jīng)典BP神經(jīng)網(wǎng)絡(luò)模型建立了河北平原區(qū)黏土礦物與地球化學(xué)元素之間的預(yù)測(cè)模型,實(shí)現(xiàn)了研究區(qū)高嶺石、綠泥石、伊利石三種主要黏土礦物含量的預(yù)測(cè),其預(yù)測(cè)結(jié)果對(duì)河北平原區(qū)的農(nóng)業(yè)、環(huán)境土壤污染等領(lǐng)域研究具有一定的參考意義。研究主要結(jié)論:
1)作為機(jī)器學(xué)習(xí)算法的BP神經(jīng)網(wǎng)絡(luò)模型可以較為準(zhǔn)確地描述河北平原區(qū)地球化學(xué)元素與黏土礦物之間的非線性關(guān)系。
2)河北平原區(qū)高嶺石、綠泥石、伊利石等的黏土礦物空間分布與研究區(qū)地貌特征、土壤類型以及人為因素等都有聯(lián)系。河北平原區(qū)的伊利石含量較高,黏土礦物含量受到母巖類型、氣候條件、沉積環(huán)境等主控因素影響,在整個(gè)冀東平原區(qū)和北三縣平原區(qū)含量普遍偏低,在太行山山前平原區(qū)含量普遍偏高;黏土礦物在沖積扇平原、沖積平原含量偏高,在洪積平原含量較低。河北平原區(qū)的黏土礦物在保定和唐山等地區(qū)富集,可能受到人類活動(dòng)的影響。研究中發(fā)現(xiàn)黏土礦物的空間分布受到多個(gè)因素的影響,今后工作將結(jié)合環(huán)境影響因子和遙感異常信息等對(duì)黏土礦物的空間分布開(kāi)展深入研究。
圖8 伊利石礦物空間分布與第四紀(jì)覆蓋物疊加圖
Fig.8 Superimposition map of spatial distribution of illite mineral and Quaternary cover
圖9 河北平原區(qū)111個(gè)土壤樣本真實(shí)值與預(yù)測(cè)值對(duì)比
表3 三種黏土礦物平均值、標(biāo)準(zhǔn)差與變異系數(shù)統(tǒng)計(jì)
致謝:在論文撰寫(xiě)過(guò)程中,得到了河北地質(zhì)大學(xué)資源與環(huán)境工程研究所欒文樓教授的很多建設(shè)性意見(jiàn),此外審稿專家也對(duì)本文提出了寶貴的修改意見(jiàn),在此表示衷心的感謝。