孫鈞青 ,王 皓 ,楊 建 ,尚宏波 ,王甜甜 ,喬 偉
(1.煤炭科學(xué)研究總院,北京 100013;2.中煤科工西安研究院(集團(tuán))有限公司,陜西 西安 710077;3.陜西省煤礦水害防治技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710077)
我國西部地區(qū)煤炭資源十分豐富,在國家的能源供保中發(fā)揮著重要作用[1],但由于水文地質(zhì)條件的復(fù)雜性,西部煤炭的開采長期面臨著頂板水害事故的發(fā)生[2]。而對(duì)涌水水源的判別是水害防治工作的基礎(chǔ)[3],因此,煤層頂板涌水水源的準(zhǔn)確判別對(duì)西部煤炭安全開采具有重要意義[4-5]。
傳統(tǒng)用來進(jìn)行水源判別的指標(biāo)為水中主要離子、pH 和總?cè)芙夤腆w(TDS)等無機(jī)指標(biāo)。實(shí)際上,不同含水層中總有機(jī)碳(TOC)、紫外吸光度(UV254)和溶解性有機(jī)質(zhì)(DOM)也存在較大差異的[6],熒光指紋技術(shù)直觀地反映了樣本的特征與差異[7];楊建等[8]通過觀察熒光指紋圖,從理論上證明了有機(jī)-無機(jī)聯(lián)合判別的可靠性;楊勇[9]在建立判別模型時(shí)使用尋峰法對(duì)熒光圖譜進(jìn)行了分析。平行因子法(PARAFAC)作為1 種多路數(shù)據(jù)分析技術(shù),能夠從數(shù)學(xué)角度解釋DOM 的熒光組分[10-11],楊毅等[12]、張溪彧等[13],YU[14]等均利用PARAFAC 對(duì)水體DOM 的光譜特征和主要來源進(jìn)行了分析。隨著數(shù)學(xué)理論和計(jì)算機(jī)的發(fā)展,多元統(tǒng)計(jì)法[15]和機(jī)器學(xué)習(xí)算法在水源判別中得到了廣泛應(yīng)用,秋興國等[16]、紀(jì)卓辰等[17]使用主成分分析法(PCA)對(duì)水化學(xué)數(shù)據(jù)進(jìn)行了降維處理;董東林等[18]、馮冬梅等[19]分別使用改進(jìn)的極限學(xué)習(xí)機(jī)(ELM)和支持向量機(jī)(SVM)對(duì)礦井水源進(jìn)行了判別;黃敏等[20]、胡友彪等[21]分別使用群體優(yōu)化算法對(duì)隨機(jī)森林(RF)算法進(jìn)行了優(yōu)化;郝謙等[22]將RF 與SVM、ELM 進(jìn)行了比較,證明了RF 算法更高的預(yù)測(cè)精度和魯棒性。
但是地下水成因復(fù)雜,對(duì)于一些成分相近的水源,無機(jī)水化學(xué)指標(biāo)較難做出準(zhǔn)確判斷。而PARAFAC 可以對(duì)水樣的熒光組分進(jìn)行量化,克服人為經(jīng)驗(yàn)和尋峰法中重復(fù)峰的干擾。有機(jī)指標(biāo)的加入增加了判別指標(biāo)的維度,而RF 算法能夠有效處理高維數(shù)據(jù)和特征之間的復(fù)雜關(guān)系,擁有較高的準(zhǔn)確性和魯棒性。為此,以榆橫礦區(qū)某井田為研究區(qū),將TOC、UV254與DOM 作為有機(jī)指標(biāo)融入水源判別中,使用PARAFAC 對(duì)水樣的熒光組分進(jìn)行量化,在對(duì)數(shù)據(jù)集進(jìn)行降維后,利用RF 算法分別構(gòu)建無機(jī)指標(biāo)判別模型和無機(jī)-有機(jī)綜合指標(biāo)判別模型,為提升煤層頂板涌水水源判別準(zhǔn)確率提供新的思路。
研究區(qū)位于陜北黃土高原北端,毛烏素沙漠東南緣,地表絕大部分被第四系松散沉積物所覆蓋,以風(fēng)蝕風(fēng)積沙漠丘陵地貌為主。研究區(qū)水系不發(fā)育,區(qū)內(nèi)大部地表無完整水系分布且受大氣降水影響較大。研究區(qū)地層綜合柱狀圖如圖1。
圖1 研究區(qū)地層綜合柱狀圖Fig.1 Comprehensive histogram of strata in study area
由圖1 可知,研究區(qū)含煤地層延安組,其主要含(隔)水層自上而下包括:第四系松散孔隙含水層、白堊系孔隙-裂隙含水層、安定組相對(duì)隔水層、直羅組和延安組砂巖裂隙含水層。第四系孔隙發(fā)育與大氣降水的聯(lián)系密切,富水性強(qiáng);白堊系與第四系無穩(wěn)定隔水層,易于接受其補(bǔ)給,富水性較好;直羅組與白堊系之間有相對(duì)隔水層安定組,其裂隙不發(fā)育,富水性較弱;延安組裂隙不發(fā)育且隨著埋深增加,滲透性逐漸變差。
本次研究共采集研究區(qū)地下水水樣73 組,分別用于水質(zhì)全分析和有機(jī)物分析,使用2.5 L 塑料桶采集水樣,嚴(yán)格執(zhí)行裝水、密封、貼標(biāo)等采樣步驟,采集后及時(shí)進(jìn)行分析檢驗(yàn)。
參考GB/T 14848—2017 地下水質(zhì)量標(biāo)準(zhǔn)[23]對(duì)水樣的20 項(xiàng)常規(guī)指標(biāo)進(jìn)行檢測(cè),選取K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-和TDS 共7 項(xiàng)無機(jī)指標(biāo)進(jìn)行后續(xù)分析。
需要測(cè)定的有機(jī)指標(biāo)為TOC、UV254和DOM三維熒光數(shù)據(jù)(EEMs)。使用multi N/C 2100 專家型總有機(jī)碳/總氮分析儀進(jìn)行TOC 的檢測(cè);使用Evolution 60 紫外可見光度計(jì)檢測(cè)254 nm 處的紫外吸收值。使用熒光分光光度計(jì)(HITACHI F-7000)進(jìn)行DOM 熒光數(shù)據(jù)的提取,設(shè)置儀器掃描速度為1 200 nm/min;激發(fā)波(EX)波長為200~420 nm,間隔為5 nm;發(fā)射波(EM)波長為240~600 nm,間隔為2 nm。為去除環(huán)境噪聲,使用超純水作為空白校正水的拉曼散射。
測(cè)得各項(xiàng)水化學(xué)指標(biāo)原始數(shù)據(jù)見表1。
表1 73 組水樣水化學(xué)特征Table 1 Hydrochemical characteristics of 73 groups of water samples
對(duì)水樣檢測(cè)結(jié)果進(jìn)行分析可知:隨著含水層埋深的增加,K++Na+、SO42-和TDS 濃度不斷增加。第四系陽離子以Ca2+為主,其次為Mg2+和Na+;陰離子以HCO3-為主,其次為SO42-和Cl-;經(jīng)過分析,主要表現(xiàn)為HCO3-Ca 型水,說明大氣降水能夠很好地對(duì)這個(gè)含水層進(jìn)行補(bǔ)給;但是個(gè)別水樣的Na+含量較高,這表明區(qū)域內(nèi)第四系水的補(bǔ)給和運(yùn)移條件存在較強(qiáng)的不均一性。白堊系水中Na+濃度有所升高,以HCO3-Ca·Na 和HCO3-Na·Ca 型水為主,這與沉積巖風(fēng)化水解、交代作用和陽離子交替作用有關(guān);直羅組和延安組陽離子開始以Na+為主,其次為Ca2+;陰離開始以SO42-為主,其次為HCO3-;水質(zhì)類型為SO4-Na·(Ca)型水,說明直羅組含水層中地下水循環(huán)時(shí)間較上部含水層增加,逐漸形成深部滯留型地下水。
綜上所述,可以根據(jù)無機(jī)水化學(xué)指標(biāo)對(duì)這4個(gè)含水層的水樣進(jìn)行初步辨別,但是第四系和白堊系、直羅組和延安組兩兩之間不易區(qū)分,特別是直羅組和延安組的水樣,水化學(xué)類型相似,且各指標(biāo)濃度差異不大。因此使用UV254、TOC 和DOM 這3 種有機(jī)指標(biāo),對(duì)水樣來源進(jìn)行進(jìn)一步區(qū)分。
根據(jù)表1 的測(cè)試結(jié)果,繪制的各水樣TOC 和UV254濃度如圖2。
圖2 各水樣TOC 和UV254 濃度Fig.2 TOC and UV254 concentration histogram of each water sample
由圖2 可知:第四系水樣的有機(jī)質(zhì)含量高于直羅組和延安組,主要是由于第四系直接接受地表水補(bǔ)給,容易受到含有機(jī)物的沉積物和工農(nóng)業(yè)污染的雙重影響;白堊系和直羅組水樣中溶解性有機(jī)質(zhì)含量相對(duì)較低,表明這2 個(gè)含水層水幾乎未受到人類生產(chǎn)生活的影響。理論上,隨著含水層埋深的增加,DOM 有機(jī)質(zhì)與溶解氧、硫酸根等電子受體發(fā)生反應(yīng),含量會(huì)不斷降低[24];但延安組一些水樣中UV245和TOC 的濃度卻明顯高于直羅組,這主要是受含煤地層的影響;當(dāng)?shù)叵滤鹘?jīng)含煤地層時(shí),部分有機(jī)物會(huì)從煤層溶解到地下水中。
雖然不同類型水樣的TOC 和UV254含量存在差異,但總體含量較低,且水中部分有機(jī)物在紫外光下無明顯吸收峰[13],因此需要利用熒光指紋技術(shù)對(duì)水樣中的DOM 進(jìn)行更加深入的分析。根據(jù)得到熒光數(shù)據(jù)繪制出每個(gè)水樣的三維熒光圖譜,部分水樣的DOM 熒光圖譜如圖3,其中橫坐標(biāo)為激發(fā)波波長λEX,縱坐標(biāo)為發(fā)射波波長λEM。
圖3 部分水樣的DOM 熒光圖譜Fig.3 DOM fluorescence spectra of some water samples
經(jīng)過分析與對(duì)比,研究區(qū)水樣的DOM 三維熒光光譜圖中出現(xiàn)了文獻(xiàn)[25]中所列出的5 類天然有機(jī)質(zhì)。第四系水樣中主要出現(xiàn)了2 個(gè)熒光峰:Ⅰ區(qū)—酪氨酸,Ⅲ區(qū)—疏水性有機(jī)酸。其中Ⅰ區(qū)的熒光峰強(qiáng)度較強(qiáng)。白堊系位于第四系下部,水循環(huán)時(shí)間更長,與第四系有所差異,主要出現(xiàn)了Ⅱ區(qū)—色氨酸和Ⅴ區(qū)—海洋性腐植酸的熒光峰。總體來說,白堊系水中溶解性有機(jī)質(zhì)濃度小于第四系,標(biāo)志性熒光峰位置出現(xiàn)在Ⅴ區(qū)。直羅組和延安組的水樣中主要出現(xiàn)的是Ⅱ區(qū)、Ⅳ區(qū)—含色氨酸的類蛋白質(zhì)和Ⅴ區(qū)的熒光峰。但是延安組水樣的熒光強(qiáng)度相對(duì)較高且個(gè)別水樣中還出現(xiàn)了Ⅰ區(qū)的熒光峰,這表明深部含水層存在其他來源的腐殖質(zhì)類DOM。
判別模型基本框架如圖4。
圖4 判別模型基本框架Fig.4 Basic framework of discriminant model
由圖4 可知:測(cè)定的無機(jī)指標(biāo)組成數(shù)據(jù)集data1,使用PARAFAC 對(duì)EEMs 進(jìn)行處理后得到主要組分(C1、C2、C3)的熒光強(qiáng)度,與TOC、UV254、無機(jī)指標(biāo)共同組成數(shù)據(jù)集data2;使用主成分分析法(PCA)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,該過程分為數(shù)據(jù)標(biāo)準(zhǔn)化和主成分提取2 步;data1 和data2 經(jīng)PCA 處理后分別進(jìn)入RF 模型中進(jìn)行訓(xùn)練。
雖然可以從熒光圖譜通過熒光峰觀察出水樣DOM 的差異,但在樣本量大的情況下操作不便且容易帶來人為誤差。PARAFAC 提供了數(shù)據(jù)的定量和定性模型,因此采用PARAFAC 對(duì)水樣DOM熒光數(shù)據(jù)的主要組分進(jìn)行量化和提取,該過程使用Matlab 中的DOMFluor 工具箱進(jìn)行實(shí)現(xiàn)。
為保證結(jié)果的可靠性,使用拆半檢驗(yàn)對(duì)各分量模型進(jìn)行驗(yàn)證,根據(jù)代碼運(yùn)行結(jié)果,2 組分模型和3 組分模型均是有效的。為最大限度地反映數(shù)據(jù)信息,使用誤差平方和對(duì)不同組分?jǐn)?shù)量下的模型進(jìn)行對(duì)比,繪制出的DOM 組分?jǐn)?shù)目與殘差關(guān)系圖如圖5。
圖5 組分?jǐn)?shù)目與殘差關(guān)系圖Fig.5 Relationship between DOM fraction and residual error in mine water
由圖5 可知:當(dāng)組分?jǐn)?shù)由2 增加到3 時(shí),激發(fā)波(EX)和發(fā)射波(EM)的殘差已大幅減小,當(dāng)組分?jǐn)?shù)由3 增加到4 時(shí),殘差變化不大,因此考慮選取3 組分模型。
PARAFAC 的計(jì)算結(jié)果中包含了每個(gè)樣品各組分的熒光強(qiáng)度,根據(jù)導(dǎo)出數(shù)據(jù)繪制出各組分熒光圖譜及對(duì)應(yīng)的熒光載荷圖,并且列出了4 類水各組分熒光強(qiáng)度的平均值。各組分熒光強(qiáng)度平均值見表2,DOM 各組分三維熒光圖譜及熒光載荷如圖6。
表2 各組分熒光強(qiáng)度平均值Table 2 Average fluorescence intensity of each component
圖6 DOM 各組分三維熒光圖譜及熒光載荷Fig.6 Three-dimensional fluorescence spectrum and fluorescence load of DOM components
PARAFAC 共鑒別出3 種組分:組分1(C1)具有1 個(gè)激發(fā)峰(250 nm)和1 個(gè)發(fā)射峰(425 nm),包含了疏水性有機(jī)酸和類腐植酸的成分并以后者居 多;組 分2(C2)具 有3 個(gè) 激 發(fā) 峰(225 nm/280 nm/305 nm)和1 個(gè)發(fā)射峰(340 nm),包含了類色氨酸和含色氨酸的類蛋白質(zhì);組分3(C3)具有2 個(gè)激發(fā)峰(245 nm/285 nm)和1 個(gè)發(fā)射峰(310 nm),主要為酪氨酸和含色氨酸的類蛋白質(zhì)。
通過PARAFAC,用提取出來的3 種組分熒光強(qiáng)度代替原樣本中出現(xiàn)的5 種熒光區(qū)域,達(dá)到數(shù)學(xué)量化和組分降維的目的,為后續(xù)判別提供了數(shù)據(jù)基礎(chǔ)。
利用主成分分析法(PCA)對(duì)數(shù)據(jù)進(jìn)行降維分析,該過程在SPSS 軟件實(shí)現(xiàn)。
分 別 記K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-、TDS 為X1、X2、X3、X4、X5、X6和X7,組成的數(shù)據(jù)集記為data1。對(duì)data1 進(jìn)行PCA 分析,得到各指標(biāo)的總方差解釋。無機(jī)指標(biāo)總方差解釋見表3。
表3 無機(jī)指標(biāo)總方差解釋Table 3 Inorganic index total variance interpretation
由表3 可知:前3 個(gè)主成分F1~ F3的方差累計(jì)貢獻(xiàn)率已達(dá)到了96.422%。因此選取主成分個(gè)數(shù)為3,根據(jù)成分得分矩陣得到前3 個(gè)主成分的數(shù)學(xué)表達(dá)式如式(1)。
式中:Fi為 第i個(gè)主成分。
在data1 的基礎(chǔ)上,加入U(xiǎn)V254、TOC 和熒光組分C1,C2,C3,分別記K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-、TDS、TOC、UV254、C1、C2、C3 為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11和X12,組成的數(shù)據(jù)集記為data2,利用SPSS得到各指標(biāo)總方差解釋。無機(jī)-有機(jī)指標(biāo)總方差解釋見表4。
表4 無機(jī)-有機(jī)指標(biāo)總方差解釋Table 4 Inorganic-organic index total variance interpretation
由表4 可知:前6 個(gè)主成分F1~ F6的方差累計(jì)貢獻(xiàn)率達(dá)到了94.811%。因此,這里選取主成分個(gè)數(shù)為6。同理,根據(jù)成分得分矩陣可以得到前6個(gè)主成分的表達(dá)式,這里不做展示。
記第四系水、白堊系水、直羅組水、延安組水分別為Ⅰ、Ⅱ、Ⅲ、Ⅳ類水,分別使用data1、data2 進(jìn)行無機(jī)判別模型和無機(jī)-有機(jī)綜合指標(biāo)判別模型的訓(xùn)練。采用K折交叉驗(yàn)證來進(jìn)行模型評(píng)估,因此無需人為劃分訓(xùn)練集與測(cè)試集,這種方法可以有效避免欠擬合或過擬合狀態(tài)的發(fā)生;在小樣本中能得到具有說服力的結(jié)果,這里在K值取2~7 時(shí)進(jìn)行尋優(yōu)。在RF 算法中,對(duì)樣本集進(jìn)行有放回地抽樣來構(gòu)建樹,這里設(shè)置決策樹的個(gè)數(shù)為100,對(duì)每顆決策樹的深度不做限制。用平均精度、平均查準(zhǔn)率、平均召回率和f1 score(f1 調(diào)和指數(shù))衡量模型的性能。整個(gè)過程在pycharm2021環(huán)境中使用python 語言實(shí)現(xiàn)。
通過不同指標(biāo)體系性能對(duì)比可知:綜合判別模型的平均精度、平均查準(zhǔn)率、平均召回率和f1 score 分別達(dá)到了93.14%、94.79%、95.08%、93.73%,較無機(jī)模型分別提高了9.71%、11.84%、12.25%、11.5%。
通過回代判別結(jié)果可知:無機(jī)判別模型出現(xiàn)了5 個(gè)誤判,回代準(zhǔn)確率為93.15%,綜合判別模型僅出現(xiàn)了1 個(gè)誤判,回代準(zhǔn)確率為98.63%。
利用8 個(gè)分別屬于Ⅰ、Ⅱ、Ⅲ、Ⅳ類水的待測(cè)樣本對(duì)判別模型的效果進(jìn)行檢驗(yàn),待測(cè)樣本水化學(xué)特征見表5,待測(cè)樣本判別結(jié)果見表6。
表5 待測(cè)樣本水化學(xué)特征Table 5 Hydrochemical characteristics of samples to be tested
表6 待測(cè)樣本判別結(jié)果Table 6 Discrimination results of water samples to be tested
由表6 可知:在無機(jī)指標(biāo)訓(xùn)練的模型下,8 個(gè)樣本中出現(xiàn)了2 個(gè)誤判,分別將樣本3(Ⅱ類水)和樣本7(Ⅳ類水)誤判為Ⅰ類水和Ⅲ類水,總體判別準(zhǔn)確率只有75%。而在無機(jī)-有機(jī)綜合指標(biāo)訓(xùn)練的模型下,對(duì)8 個(gè)待測(cè)樣本的類型都進(jìn)行了正確的判別,這進(jìn)一步證明了無機(jī)-有機(jī)綜合指標(biāo)能夠顯著提高判別準(zhǔn)確率,可以為煤層頂板涌水水源判別提供新思路。
1)分析了不同來源水樣的無機(jī)水化學(xué)指標(biāo)及TOC、UV254和熒光光譜等有機(jī)指標(biāo),初步確定出了第四系含水層、白堊系含水層、直羅組含水層及延安組含水層水化學(xué)特征之間的差異,但仍無法準(zhǔn)確區(qū)分出各水樣的來源。
2)利用PARAFAC 從熒光圖譜中提取并量化了3 種組分,使用PCA 分別將data1 和data2 的判別指標(biāo)維度降至4 和6,結(jié)合RF 算法分別構(gòu)建了無機(jī)判別模型和無機(jī)-有機(jī)綜合指標(biāo)判別模型,后者的平均精度達(dá)到了93.74%,較前者提高了9.71%。
3)利用無機(jī)-有機(jī)綜合指標(biāo)判別模型對(duì)訓(xùn)練樣本進(jìn)行回判,回代準(zhǔn)確率達(dá)到了98.63%,該模型對(duì)8 個(gè)來自不同含水層的待測(cè)樣本也進(jìn)行了正確的判別,這充分說明無機(jī)-有機(jī)綜合指標(biāo)可以顯著提高煤層頂板涌水水源判別的準(zhǔn)確率,未來可以考慮擴(kuò)大樣本集和尋找優(yōu)化算法來提高模型的性能。