李 沖
(中國(guó)煤炭地質(zhì)總局水文地質(zhì)局,河北邯鄲 056000)
在我國(guó),酸性煤礦井水對(duì)地下水的污染情況越來(lái)越嚴(yán)重。煤礦中含有大量的黃鐵礦等含硫礦物,在煤礦的開(kāi)采過(guò)程中,破壞了原有的還原環(huán)境,導(dǎo)致硫化物因暴露氧化,生成硫酸,進(jìn)而使礦井水呈酸性[1-3]。由于pH值比較低,化學(xué)組成復(fù)雜,F(xiàn)e、Mn等元素含量高,酸性煤礦井水對(duì)礦山周?chē)木用窠】禒顩r和當(dāng)?shù)厣鷳B(tài)壞境危害性較大[4-6]。在巖溶發(fā)育地區(qū),居民多以巖溶地下水為生活供水水源。由于煤礦井工開(kāi)采對(duì)上覆巖層的破壞,當(dāng)導(dǎo)水裂隙波及到巖溶含水層時(shí),含水層的水匯流至采空區(qū),水煤反應(yīng)后產(chǎn)生酸性廢水排泄,污染當(dāng)?shù)厮h(huán)境[7-10]。
錳是酸性煤礦井水的主要污染物之一,過(guò)量的錳會(huì)嚴(yán)重毒害當(dāng)?shù)氐膭?dòng)、植物,損傷人體的中樞神經(jīng)系統(tǒng),出現(xiàn)多種臨床癥狀[11-15]。目前,針對(duì)地下水錳污染監(jiān)測(cè)的主要方法是在巖溶區(qū)地下水受酸性廢水影響嚴(yán)重的區(qū)域布設(shè)地下水監(jiān)測(cè)網(wǎng),對(duì)水質(zhì)進(jìn)行動(dòng)態(tài)監(jiān)測(cè)[16]。由于人工投入和分析測(cè)試等,該方法成本較高。因此,在現(xiàn)有監(jiān)測(cè)數(shù)據(jù)的基礎(chǔ)上,進(jìn)行深入研究、挖掘數(shù)據(jù)間的潛在關(guān)系,利用易獲取的水位、流量、pH值等數(shù)據(jù),建立模型,獲得測(cè)試成本高的污染離子濃度的參考值,可以作為一種降低成本的水質(zhì)監(jiān)測(cè)輔助手段。
研究表明,受影響地下水中的金屬離子含量與巖溶水位、采空區(qū)水位、pH值等有一定相關(guān)性,但由于地下溶洞發(fā)育、通道復(fù)雜,用簡(jiǎn)單的線(xiàn)性模型無(wú)法表征[17-20]。針對(duì)上述問(wèn)題,本文提出了一種基于隨機(jī)森林回歸模型的巖溶區(qū)酸性煤礦井水錳污染的預(yù)測(cè)方法,利用容易獲得的水位及測(cè)試成本較低的pH值、流量數(shù)據(jù)預(yù)測(cè)錳離子含量,有效地降低成本和測(cè)試難度,準(zhǔn)確度較高。
隨機(jī)森林回歸模型本質(zhì)是一種集成算法,通過(guò)構(gòu)建多個(gè)基評(píng)估器,每棵樹(shù)的訓(xùn)練子集都是由Bootstrap重復(fù)抽樣得到,然后進(jìn)行評(píng)價(jià)并采用多數(shù)表決或求平均的原則決定評(píng)估的結(jié)果,準(zhǔn)確度顯著提高[21]。由于通過(guò)平均決策樹(shù),降低過(guò)擬合的風(fēng)險(xiǎn),隨機(jī)森林回歸抗過(guò)擬合能力較強(qiáng)。此外,模型對(duì)噪聲、異常值不敏感,穩(wěn)健性強(qiáng),而且泛化能力強(qiáng),在訓(xùn)練完成后,能夠給出各自變量的重要程度[22-23]??紤]到樣本數(shù)不大,本次試驗(yàn)按比例劃分訓(xùn)練集和測(cè)試集,并用測(cè)試集進(jìn)行模型精度測(cè)試。
如圖1,將隨機(jī)森林回歸預(yù)測(cè)巖溶區(qū)酸性礦井水錳污染的方法和步驟歸納如下:
圖1 隨機(jī)森林回歸模型預(yù)測(cè)錳離子濃度流程Figure 1 Flow chart of manganese ion concentration prediction through Random Forest regression model
1)從原始數(shù)據(jù)中提取各種不同的特征變量數(shù)值,作為自變量;將對(duì)應(yīng)的錳離子濃度作為因變量。將因變量和自變量組合成樣本數(shù)據(jù)集。
2)將樣本數(shù)據(jù)以一定比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,再將訓(xùn)練集劃分為n個(gè)訓(xùn)練子集分別建立回歸樹(shù)。
3)將各訓(xùn)練子集的回歸樹(shù)結(jié)果求平均得到隨機(jī)森林回歸模型。
4)將測(cè)試集數(shù)據(jù)代入模型,測(cè)試精確度。
本次試驗(yàn)選取均方誤差(MSE)、平均絕對(duì)誤差(MAE)、平均百分比誤差(MAPE)作為模型精度參數(shù),各參數(shù)計(jì)算方法如下:
(1)
式中:MSE區(qū)間為[0,+∞),當(dāng)預(yù)測(cè)值與真實(shí)值完全吻合時(shí)等于0,即完美模型;誤差越大,該值越大。
(2)
式中:MAE區(qū)間為[0,+∞),當(dāng)預(yù)測(cè)值與真實(shí)值完全吻合時(shí)等于0,即完美模型;誤差越大,該值越大。
(3)
式中:MAPE區(qū)間為[0,+∞),MAPE為0%表示完美模型,MAPE 大于100%則表示劣質(zhì)模型。
研究區(qū)位于貴州省凱里市大風(fēng)洞鎮(zhèn)魚(yú)洞河流域龍洞泉。龍洞泉西部有一座飛龍煤礦,礦區(qū)面積3.163 5km2,礦井產(chǎn)能9萬(wàn)t/a;斜井開(kāi)拓,房柱式開(kāi)采,開(kāi)采煤層為二疊系梁山組M1煤層,煤層厚度0.8~1.3m,采用巷道炮采采煤工藝,頂板采用全部垮落法管理頂板。于2017年3月份關(guān)閉,現(xiàn)已成為無(wú)主煤礦。
研究區(qū)屬于典型的喀斯特地質(zhì)地貌,溶丘、洼地、漏斗分布普遍。區(qū)內(nèi)地層自寒武系至第四系,缺失石炭系,東面主要出露二疊系下統(tǒng)梁山組和中統(tǒng)棲霞和茅口組,其余零星分布[8,17]。區(qū)內(nèi)主要含煤地層為二疊系下統(tǒng)梁山組。
研究區(qū)處于黔北與黔南不同構(gòu)造變形面貌的過(guò)渡地帶,呈現(xiàn)復(fù)雜多樣的構(gòu)造變形。其中以南北向構(gòu)造形跡最為顯著,巖層走向與山形水勢(shì)都有極明顯的反映,屬貴州東部南北向構(gòu)造帶之組成部分。東西向構(gòu)造受南北向構(gòu)造橫跨重跌削弱而隱伏地下,見(jiàn)之蹤跡,也大多為次級(jí)斷裂,燕山運(yùn)動(dòng)強(qiáng)烈。形成背斜寬緩、向斜緊密的隔槽型褶曲[24-25]。
區(qū)內(nèi)出露地層多,水文地質(zhì)巖組極其復(fù)雜,根據(jù)巖性、巖溶化程度、富水性特征劃分4個(gè)巖溶含水巖組,詳見(jiàn)表1。研究區(qū)內(nèi)巖溶含水巖組屬于第一類(lèi)別——強(qiáng)巖溶含水巖組,巖溶地層為二疊系中統(tǒng)茅口組和棲霞組[17]。區(qū)內(nèi)巖溶水水位埋深基本位于棲霞組頂界面以下40m左右,水位標(biāo)高為867.69~935.40m,總體流向?yàn)樽员蔽髁飨蚰蠔|,在南東部各巖溶泉處排泄。
表1 區(qū)域巖溶含水巖組劃分
2017年6月30日龍洞泉水質(zhì)突然變差, 水質(zhì)渾濁,含大量紅色懸浮物,水流過(guò)處留下紅色沉淀物。根據(jù)水質(zhì)化驗(yàn)結(jié)果,泉水主要污染特征為高鐵高錳高酸,泉水呈紅色。經(jīng)過(guò)水文地質(zhì)調(diào)查、物探、鉆探等一系列勘查手段,最終確定泉水污染是由飛龍煤礦采空水引起的。煤礦生產(chǎn)時(shí)持續(xù)排水,礦井內(nèi)積水相對(duì)較少,積水區(qū)水位較低,關(guān)停后礦井水不再抽排,煤層頂板巖溶水通過(guò)導(dǎo)水裂隙帶不斷補(bǔ)給,強(qiáng)降水過(guò)后,礦井水在某些部位獲得巖溶水快速補(bǔ)給使采空區(qū)積水水位上升,沿導(dǎo)水通道與泉連通,導(dǎo)致泉水污染[8-10,17]。
試驗(yàn)截取2017-2019年由中煤地華盛水文地質(zhì)勘察有限公司對(duì)該區(qū)域水體污染期間的監(jiān)測(cè)數(shù)據(jù),并篩選出與錳污染相關(guān)的采空區(qū)水位、巖溶水位和龍洞泉流量、pH值、電導(dǎo)率數(shù)據(jù)以及對(duì)應(yīng)的泉水錳離子濃度,數(shù)據(jù)統(tǒng)計(jì)見(jiàn)表2。可以看出,采空區(qū)水位、巖溶水位、pH值、錳離子濃度數(shù)據(jù)間差異小,比較穩(wěn)定;而泉水流量、電導(dǎo)率數(shù)據(jù)由于強(qiáng)降雨、污染加重等原因?qū)е麓嬖跇O端值,差異較大。本次采樣88個(gè)點(diǎn),初步分析上述變量與錳離子濃度的相關(guān)性,結(jié)果如圖2所示。
表2 樣本數(shù)據(jù)統(tǒng)計(jì)
由圖2可以看出,這些變量與錳離子濃度間的關(guān)系并不明顯,只有采空區(qū)水位、巖溶水位、泉水流量、電導(dǎo)率和錳離子濃度間有微弱的相關(guān)性。
圖2 各變量與錳離子濃度的散點(diǎn)圖Figure 2 Scatter diagram of variables and manganese ion concentrations
將數(shù)據(jù)代入隨機(jī)森林回歸模型按9∶1劃分訓(xùn)練集和測(cè)試集,經(jīng)前期調(diào)試回歸樹(shù)數(shù)目定為616棵,進(jìn)行訓(xùn)練和測(cè)試,誤差參數(shù)結(jié)果為MSE0.02,MAE0.11,MAPE6.36%。,模型精度較高,準(zhǔn)確度(Accuracy=1-MAPE)達(dá)到93.64%。
圖3中各變量的重要程度順序?yàn)槿髁?采空區(qū)水位>電導(dǎo)率>pH值>巖溶水位。泉水流量是地下水最直觀的屬性,流量大小直接反映了酸性煤礦井水的供水量;采空區(qū)水位代表酸性煤礦井水的容量,是地下水污染的主要控制因素之一;電導(dǎo)率和pH值是泉水中離子濃度的反映,是泉水污染的間接因素;巖溶水是泉水和酸性煤礦井水的補(bǔ)充水源之一。可以看出,模型給出的各變量重要程度較為合理,對(duì)于污染治理工程具有一定的指導(dǎo)意義。
圖3 自變量重要程度條形圖Figure 3 Bar chart of arguments importance level
圖4展示了預(yù)測(cè)值和實(shí)際值的對(duì)比情況,結(jié)合誤差參數(shù)MAE(0.11)、MAPE(6.36%)來(lái)看,模型的預(yù)測(cè)值與實(shí)際值差別較小,在折線(xiàn)圖中的變化趨勢(shì)近似,表明并無(wú)異常預(yù)測(cè)值產(chǎn)生,預(yù)測(cè)結(jié)果具有參考價(jià)值。
圖4 預(yù)測(cè)值與實(shí)際值折線(xiàn)圖Figure 4 Line chart of predicted and measured values
本次試驗(yàn)重點(diǎn)是研究隨機(jī)森林回歸模型在酸性煤礦井水污染預(yù)測(cè)方面的適用性,分析其能否給出較為準(zhǔn)確的污染離子濃度參考值,也是機(jī)器學(xué)習(xí)方法在預(yù)測(cè)酸性煤礦井水污染中的初步應(yīng)用。在今后的工作中,可以將該方法作為一種輔助手段,或者應(yīng)用其他的機(jī)器學(xué)習(xí)模型,結(jié)合動(dòng)態(tài)監(jiān)測(cè)網(wǎng),更加有效的對(duì)污染情況進(jìn)行監(jiān)測(cè),具有一定的指導(dǎo)意義與經(jīng)濟(jì)價(jià)值,可以降低部分分析測(cè)試和人工的成本。
同時(shí),試驗(yàn)也存在一些不足之處:一是分析樣品數(shù)量較少導(dǎo)致準(zhǔn)確度難以再度提升。 由于條件限制,本次試驗(yàn)只采用了88組數(shù)據(jù)。隨機(jī)森林是一種數(shù)據(jù)統(tǒng)計(jì)方法,涉及大量的非線(xiàn)性計(jì)算,樣本數(shù)目較小會(huì)導(dǎo)致模型簡(jiǎn)單,抗干擾能力不足,不利于數(shù)據(jù)潛力的充分挖掘。在后續(xù)工作中,應(yīng)不斷添加監(jiān)測(cè)數(shù)據(jù),進(jìn)一步提高模型的精度和穩(wěn)定性。二是原始數(shù)據(jù)存在一些極端值,如強(qiáng)降雨后的泉水流量、污染嚴(yán)重時(shí)的電導(dǎo)率,導(dǎo)致數(shù)據(jù)連續(xù)性較差,不利于進(jìn)行連續(xù)變量回歸。三是由于酸性煤礦井水和巖溶水在裂隙通道中遷移需要一定的時(shí)間,采空區(qū)水位和巖溶水位對(duì)泉水污染的影響有滯后性,導(dǎo)致二者與錳離子濃度相關(guān)性降低,進(jìn)而使模型精度下降。
1)由模型誤差結(jié)果可以看出,隨機(jī)森林回歸在酸性煤礦井水錳污染的預(yù)測(cè)中誤差較小,準(zhǔn)確性較高;預(yù)測(cè)值與實(shí)際值差別較小,折線(xiàn)圖發(fā)展趨勢(shì)相同,并無(wú)異常值出現(xiàn)。
2)各自變量對(duì)因變量影響的重要程度順序?yàn)槿髁?采空區(qū)水位>電導(dǎo)率>pH值>巖溶水位。當(dāng)降雨量增加時(shí)會(huì)大量補(bǔ)充采空區(qū)酸性煤礦井水,使其涌出并匯于泉口,污染加重,泉水流量是最為直接的特征屬性,采空區(qū)水位次之;電導(dǎo)率和pH值受污染的間接影響,會(huì)隨之增減;巖溶水位是泉水和采空區(qū)水位的補(bǔ)充水源之一,對(duì)污染貢獻(xiàn)較小。可以看出,自變量的重要程度與實(shí)際情況相符,為后續(xù)污染治理工程提供參考。
3)隨機(jī)森林回歸模型在預(yù)測(cè)酸性煤礦井水錳污染中具有可行性。在實(shí)際應(yīng)用中,模型可作為非極端情況(如強(qiáng)降雨)下的錳離子濃度監(jiān)測(cè)方法,降低人工監(jiān)測(cè)分析的頻率,以達(dá)到節(jié)約成本的目的。