孫延輝,胡文博,馬紅林,王歷民,杜 華,李世濤
(內蒙古上海廟礦業(yè)有限責任公司 新上海一號煤礦,內蒙古 鄂爾多斯 016200)
由于我國煤田水文地質條件的復雜性,在煤層開采過程中極易遭受水害威脅[1-2]。盡管采取了大量防治措施,但隨著開采深度的增加,煤層水壓不斷升高,發(fā)生突水災害的可能性逐漸增大[3]。礦井突水水源的準確判別是開展突水防治的前提[4]。由于不同含水層水化學特征存在差異,所以通過樣本水化學特征能夠快速、有效地判別突水水源[5]。然而,含水層間存在極為復雜的水力聯(lián)系,鄰近含水層間水化學結構較為相似。因此,找到高效精準的礦井突水水源判別方法已成為當前研究的重要方向。
近年來,諸多學者利用水化學特征在突水水源判別研究上取得了一定成果。徐星等[4]將人工神經網絡應用到礦井多水源識別中,認為Elman神經網絡比BP神經網絡更能確保全局最優(yōu)性,精度更高;李垣志等[6]構建了改進的GA-BP模型,解決了傳統(tǒng)方法對于突水水源判別存在的偶然性問題,提高了判別模型的準確性;王心義等[7]利用熵權-模糊可變集理論識別礦井突水水源,依據(jù)最大隸屬度原則對樣本進行歸類,增強了判別模型的實用性;陳紹杰等[8]基于主成分分析及殘差分析對濱海礦井水源進行了識別,研究結果為濱海地區(qū)礦井水害防治提供了科學支撐。盡管上述研究方法可以預測礦井突水水源,但評價指標間重疊性強,計算過程復雜,存在一定的誤判,在樣本數(shù)據(jù)有限的情況下,難以精準預測突水水源。Fisher判別法可以很好地預測小樣本數(shù)據(jù),ZHOU等[9-12]利用Fisher判別法預測了地下礦山礦柱穩(wěn)定性、礦井水文地質類型、煤與瓦斯突出類型、風化基巖富水性,降低了樣本數(shù)據(jù)有限的條件對預測精度的影響。但預測模型中評價指標眾多且關聯(lián)性強,僅采用Fisher判別法進行預測,不僅過程冗繁,預測精度也不高。
為此,筆者基于Piper-PCA-Fisher構建礦井突水水源判別模型,排除同一含水層中水化學特征存在異常的樣本,提取礦井突水水源典型樣本,壓縮突水水源化學離子指標信息,用少量主成分代替原有評價指標,減弱化學離子間關聯(lián)度,簡化計算過程,確定評價集與突水水源類別距離,提高預測精度,以期在樣本數(shù)據(jù)有限的情況下,得到更合理、更可靠的礦井突水水源預測結果,為礦井突水事故防治提供理論依據(jù)。
Piper三線圖是一種直觀展現(xiàn)水樣化學離子關系的方法。Piper三線圖由兩個等邊三角形和一個菱形構成(見圖1),圖中左下角三角形邊線表示水樣中Ca2+、Mg2+、Na++K+三類陽離子的含量占比,右下角三角形表示水樣中Cl-、SO42-、HCO3-三類陰離子的含量占比[13]。將菱形劃分為9個部分,樣本數(shù)據(jù)落在不同區(qū)域代表其具有不同的水化學特征[14]。
對于礦井中不同的含水層,水化學成分會因水文地質條件的不同而存在明顯差異[15];對于礦井中的同一含水層,化學成分會通過一系列物理和化學反應保持動態(tài)平衡[16]。因此,對同一含水層水樣進行分析時,會呈現(xiàn)相同的水化學特征,即典型樣本集中于Piper三線圖菱形中某一位置。為構建高精度的突水水源判別模型,應當確定典型水樣,對于明顯偏離大部分樣本的數(shù)據(jù),應視為異常數(shù)據(jù)而排除。
圖 1 Piper三線圖解
主成分分析本質上是一種有效的降維手段,其核心是將原始數(shù)據(jù)通過線性組合,利用矩陣正交變換將初始信息提煉,用較少主成分線性函數(shù)與特定成分之和表達原有眾多指標,消除指標間的相關性,降低預測樣本的復雜度,提高預測精度。分析步驟敘述如下[17-18]。
1)建立原始數(shù)據(jù)矩陣,表達式為
(1)
2)將原始數(shù)據(jù)標準化,可表示為
(2)
3)求相關系數(shù)矩陣G,表達式為
(3)
4)計算矩陣G的特征值及特征向量
|R-λIp|=0,
(4)
式中,R為計算矩陣;Ip為單位矩陣。
計算出特征值λi(i=1,2,3,…,p),按大小順序排列后分別求出特征值對應的特征向量。
5)確定主成分數(shù)目。計算單個主成分的貢獻率及主成分累計貢獻率,取累計貢獻率S≥85%所對應的前h個主成分。
第h個主成分的貢獻率可表示為
(5)
前h個主成分累計貢獻率可表示為
(6)
6)經線性組合后可得y=AX,即
(7)
Fisher判別準則[19]表述如下。
設樣本數(shù)為ni,每個樣本有p項指標,協(xié)方差矩陣及均值分別為x(i)、∑(i)。為判定新樣本X=(x1,x2,…,xp)T類別,構建判別函數(shù):
(8)
式中,C=(c1,c2,…,cp)T,X=(x1,x2,…,xp)T。
(9)
最大離差比γ可表示為
(10)
根據(jù)極值存在的必要條件,經代數(shù)計算,可構造t個判別函數(shù)(t為E-1B非零特征值個數(shù))。
單個判別函數(shù)的判別能力定義為
(11)
式中,λ為E-1B對應的特征值。
前h個判別函數(shù)的判別能力定義為
(12)
若Ps≥85%,可采用前h個判別函數(shù)進行判別。將新樣本p項指標函數(shù)代入判別函數(shù)中即可求出y值,將其與判別中心值進行比較,即可判定該樣本所屬類別。
運用Piper三線圖將異常數(shù)據(jù)剔除,得到典型水樣,以此為訓練樣本;利用主成分分析對判別指標進行信息提煉;將經Piper三線圖剔除及主成分分析后的新訓練樣本輸入Fisher判別中進行訓練,以提高小樣本數(shù)據(jù)的預測效率和精度。Piper-PCA-Fisher判別模型技術路線見圖2。
圖 2 Piper-PCA-Fisher判別模型技術路線
臨渙礦區(qū)建于1977年,位于安徽省淮北市濉溪縣韓村鎮(zhèn)境內。該地區(qū)屬暖溫帶半濕潤氣候,年平均氣溫14.1 ℃,年平均地表溫度12.6 ℃,年平均降雨量830 mm。該區(qū)域地質構造條件復雜,存在斷層、褶皺、次級褶曲等構造,且多為近東西向和北北東向[20]。流經該區(qū)域的地表水系主要是澮河,為中型季節(jié)性河流。根據(jù)地層的巖性、厚度以及區(qū)域富水條件,煤田內的含水層由上而下主要有:松散層孔隙含水層、煤系地層砂巖裂隙含水層、太原組灰?guī)r巖溶裂隙含水層、奧陶系灰?guī)r含水層[14,21]。
根據(jù)臨渙礦區(qū)水文地質資料,結合劉鑫[14]的研究成果,臨渙礦區(qū)的主要突水水源類型為:來源于松散層孔隙含水層的四含水(Ⅰ類)、來源于煤系地層砂巖裂隙含水層的煤系水(Ⅱ類)、來源于太原組灰?guī)r巖溶裂隙含水層的太灰水(Ⅲ類)以及來源于奧陶系灰?guī)r含水層的奧灰水(Ⅳ類)。將Ca2+(X1)、Mg2+(X2)、Na++K+(X3)、Cl-(X4)、SO42-(X5)、HCO3-(X6)6類離子實測濃度作為判別突水水源類別的指標。從4類水源中選取58組實測數(shù)據(jù)進行訓練與測試,具體水樣數(shù)據(jù)特征見表1、表2。
表 1 臨渙礦區(qū)水樣數(shù)據(jù)(訓練集)
表 2 臨渙礦區(qū)水樣數(shù)據(jù)(測試集)
為確定典型水樣,將表1中43組訓練樣本按類別繪制四含水、煤系水、太灰水、奧灰水的Piper三線圖。其中,由于四含水和奧灰水訓練樣本較少,將測試樣本中四含水、奧灰水數(shù)據(jù)加入對應類別繪制。4類突水水源Piper三線圖見圖3。
由圖3(a)可知:四含水主要分布在4區(qū),即強酸大于弱酸區(qū),陽離子以Na+為主,陰離子中Cl-占比較大:5號水樣明顯遠離其他樣本,故將其作為異常樣本剔除。由圖3(b)可知:煤系水中9、14、20號水樣明顯遠離其他樣本,故將其作為異常樣本剔除;其余12組樣本篩選為煤系水典型水樣,主要分布在8區(qū),即以堿土金屬離子及弱酸為主;煤系水中Na+占陽離子的80%以上,陰離子中HCO3-質量濃度遠高于Cl-和SO42-,表明煤系水的主要化學類型為Na-HCO3。由圖3(c)可知:太灰水主要分布在9區(qū),主要化學類型為Ca-Mg-Cl-SO4;23、34號樣本與其他樣本相距較遠,故將其作為異常樣本剔除。由圖3(d)可知,7組樣本分布散亂,無規(guī)律可循,因此該水樣類別不剔除異常樣本。
綜上所述,將表1中5、9、14、20、23、34號樣本作為異常樣本剔除,確定其余37組數(shù)據(jù)作為突水水源典型樣本,用于下一步的水源判別模型訓練。
圖3 水樣Piper三線圖
利用SPSS(Statistical Product and Service Solutions)軟件對表1中剔除異常數(shù)據(jù)后的37組數(shù)據(jù)及表2中的15組數(shù)據(jù)的6項評價指標作標準化處理后進行主成分分析,由此得出礦井突水水源各主成分的特征值及其貢獻率(見表3);突水水源PCA碎石特征值及累計貢獻率見圖4。由表3可知,前3項主成分的累計貢獻率為91.636%,說明前3項主成分包含原有指標數(shù)據(jù)91.636%的信息。由圖4可知,前3個主成分特征值散點圖呈陡坡形,后3個主成分特征散點圖趨于平緩,表明前3項主成分可以較好地解釋原始指標的絕大部分信息,且各成分間的重疊性弱。因此,提取前3項主成分代替原有的6項離子信息,可以較為完整地表征樣本水化學特征。
表3 突水水源主成分特征值及其貢獻率
圖4 突水水源PCA碎石特征值及累計貢獻率
利用SPSS軟件求得突水水源3個主成分的因子載荷矩陣(見表4)。其中,第1主成分Y1與Ca2+、Mg2+、HCO3-三類離子顯著相關,表明Y1包含Ca2+、Mg2+、HCO3-的指標信息。同樣可以確定,第2主成分Y2包含Na++K+的指標信息;第3主成分Y3包含Cl-、SO42-的指標信息。
表4 突水水源主成分矩陣
在確定3個主成分后,結合主成分系數(shù)矩陣,得到主成分與標準化原始變量的數(shù)學關系式[見式(13)-式(15)]。
Y1=0.298X1+0.281X2-0.159X3
+0.141X4+0.248X5-0.256,
(13)
Y2=0.167X1+0.125X2+0.532X3
+0.405X4+0.125X5+0.345X6,
(14)
Y3=-0.165X1+0.270X2+0.168X3
-0.657X4+0.643X5+0.260X6。
(15)
基于主成分分析將提取的3個主成分即Y1-Y3作為Fisher判別指標輸入層,將篩選后的37組數(shù)據(jù)作為訓練樣本輸入、15組測試數(shù)據(jù)作為預測樣本輸出,輸出參數(shù)為水源類別。利用SPSS軟件,由Fisher判別法算得突水水源判別函數(shù)[見式(16)-式(18)]。判別函數(shù)特征值見表5。
Z1=5.390Y1+0.981Y2-0.868Y3-0.338,
(16)
Z2=-0.158Y1+2.206Y2+0.130Y3-0.107,
(17)
Z3=0.114Y1-0.071Y2+0.841Y3-0.023。
(18)
由表5可知:判別函數(shù)Z1對應的特征值為33.184,典型相關性達到0.985,Z2對應的特征值為3.474,典型相關性達到0.881;這2個判別函數(shù)的相關性均大于0.85,證明其判別能力顯著;且累計方差為100.00%,表明運用函數(shù)Z1、Z2即可判別樣本的全部信息。
表 5 判別函數(shù)特征值
利用SPSS軟件得到水源判別中心值(見表6)。通過比較預測樣本函數(shù)值與水源判別中心值的距離,確定樣本最終突水水源。測試樣本判別結果見表7。
表 6 4類水源中心值
表7 預測樣本判別函數(shù)值及判別結果
為檢驗Piper-PCA-Fisher判別模型的準確性及可靠性,將37組訓練樣本數(shù)據(jù)逐一回判。為了更加直觀地展現(xiàn)評價結果,將37組訓練樣本及15組預測樣本判別結果繪制成離散點圖(見圖5)。
圖 5 樣本水源類別判別離散點圖
由表7及圖5可知:Piper-PCA-Fisher判別模型對突水水源的37組訓練樣本回判正確,15組預測樣本判別結果全部正確,預測及回判過程中沒有造成誤判。由此可見,Piper-PCA-Fisher判別模型能滿足突水水源判別的實際要求,且簡單易行、準確性高。
a.同一含水層樣本水化學特征相同,通過Piper三線圖剔除同一含水層中水化學特征存在異常的樣本,確定典型水樣作為訓練樣本,以提高判別模型的可靠性。
b.采用主成分分析對影響水源類別的化學指標進行降維、凈化處理,確定3個主成分代替原有的6項離子信息,可降低水樣化學離子間的關聯(lián)度,提高預測精度。
c.將確定的3個主成分代入Fisher判別模型中,對15組預測樣本數(shù)據(jù)進行預測,并對37組典型水樣逐一回判,誤判率均為0,與實際類型一致。
d.礦井突水水源的Piper-PCA-Fisher判別模型具有較高的穩(wěn)定性,且簡單易行、準確性高。