秋興國,劉 杰,李 娜,黃潤青
(西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710054)
中國是世界主要產(chǎn)煤國之一,也是受煤礦水害最嚴(yán)重的國家之一[1],在煤礦井下發(fā)生的水害水災(zāi)是礦井安全工作中的關(guān)注重點(diǎn)[2],礦井水害一旦發(fā)生將會(huì)造成極為嚴(yán)重的人員傷亡及財(cái)產(chǎn)損失,所以只要及時(shí)準(zhǔn)確地識(shí)別礦井水源就可以采取有效的防治措施。因此,在水害防治工作中,對于礦井水源識(shí)別工作是重中之重。目前,水源識(shí)別方法包括地下水化學(xué)特征分析法、多元統(tǒng)計(jì)方法(判別分析法和聚類分析方法)和非線性分析方法(模糊數(shù)學(xué)法、神經(jīng)網(wǎng)絡(luò)法和可拓識(shí)別法等)[3-4]。陳俊環(huán)等利用水質(zhì)類型的差異,對礦井水源進(jìn)行判別,并說明水化學(xué)分析法存在一定的局限性[5];袁文華等將水溫水位判別法應(yīng)用于煤礦水源的判別,建立地溫方程計(jì)算含水層水溫,與實(shí)際監(jiān)測點(diǎn)水溫進(jìn)行比較來判別礦井水源[6];孫福勛等利用Fisher判別理論,結(jié)合質(zhì)心距評判法對礦區(qū)水樣進(jìn)行了分析判斷[7];代革聯(lián)等在煤礦中引用模糊聚類判別法,分析了水質(zhì)類型相似時(shí)水源判別不準(zhǔn)確的問題[8];徐星等利用神經(jīng)網(wǎng)絡(luò)仿真結(jié)果誤差小的特點(diǎn)將其應(yīng)用于礦井突水水源判別領(lǐng)域[9];張瑞鋼等利用可拓識(shí)別方法判別礦井突水水源,還有一些未確知數(shù)學(xué)方法等[10]。而上述方法各有適用性,如有的模型復(fù)雜、判別過程繁瑣、確定離子權(quán)重時(shí)主觀性較強(qiáng)、對誤判損失有失考量[11],在準(zhǔn)確率方面也需要提高等,因此礦井水源識(shí)別的算法研究還需進(jìn)一步深入。
貝葉斯判別法具有判別模型簡單、求解速度較快和判別質(zhì)量高的特點(diǎn)[12],在貝葉斯判別法的基礎(chǔ)上,結(jié)合主成分分析方法,并引入變異系數(shù)來進(jìn)行評估計(jì)算過程中水質(zhì)離子的權(quán)重,以消除水源判別過程中離子指標(biāo)間存在信息疊加以及評價(jià)過程中主觀因素過重帶來的影響[13],提高水源判別的準(zhǔn)確率,從而減少實(shí)際應(yīng)用中礦井水源類別的誤判。
主成分分析法(principal component analysis,PCA)是一種降維的統(tǒng)計(jì)方法,將可能互相關(guān)聯(lián)的多個(gè)元素進(jìn)行數(shù)據(jù)壓縮,重新組合成一組新的相互無關(guān)的元素,達(dá)到以盡可能少的數(shù)據(jù)來表示大部分信息的目的[14]。
由于在數(shù)據(jù)處理過程中難免會(huì)遇到高維數(shù)據(jù)組,由于數(shù)據(jù)維數(shù)較高變量較大,這些變量之間往往會(huì)存在一些相關(guān)性,因此這些數(shù)據(jù)樣本很難反映總體的主要特征[15]。主成分分析將可能具有相關(guān)性的高維變量經(jīng)過線性變換合成線性無關(guān)的低維向量,用來提取較少個(gè)數(shù)的重要變量。在礦井水源識(shí)別工作中,經(jīng)過主成分分析可以在保留主要信息的基礎(chǔ)上降低向判別模型輸入的維數(shù),減小輸入信息量,達(dá)到以少量的水質(zhì)離子就可以代表某類水源的目的,若主成分選取有誤差,在實(shí)際的水源識(shí)別工作中則會(huì)類別模糊不清或?qū)ψ罱K的判別結(jié)果產(chǎn)生影響。利用Statistical Product and Service Solution(SPSS 24)對原始數(shù)據(jù)進(jìn)行主成分分析處理。
假設(shè)對某一事物的研究涉及N個(gè)樣本,每個(gè)樣本有n個(gè)變量,分別用X1,X2,…,Xp表示,對隨機(jī)變量進(jìn)行線性變換形成新的綜合變量Y[16],即
(1)
式中ci1+ci2+…+cin=1;Yi與Yj(i≠j;i,j=1,2,…,n)互相無關(guān);Yi為(Y1,Y2,…,Yn)的線性組合中方差最大者;Y2為與Y1不相關(guān)的(X1,X2,…,Xn)所有線性組合中方差最大者;Yn為與(Y1,Y2,…,Yn-1)都不相關(guān)的(X1,X2,…,Xn)的所有線性組合中的方差最大者[17]。基于以上原則確定的綜合變量(Y1,Y2,…,Yn)分別稱為樣本的第1,第2,…、第n個(gè)主成分[18]。主成分分析法的主要過程如下。
1)對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,排除數(shù)量級(jí)和量綱對結(jié)果造成的影響。
2)計(jì)算各標(biāo)量之間的協(xié)方差矩陣及相應(yīng)特征向量與特征值。
3)計(jì)算第k個(gè)主成分的方差貢獻(xiàn)率(k=1,2,…,n)。
4)按照累積方差貢獻(xiàn)率>80%或特征值大于1的原則選取主成分[19]。
貝葉斯(Bayes)是先通過已給定的訓(xùn)練集,以特征詞之間的獨(dú)立作為前提假設(shè),學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于已學(xué)習(xí)的模型,輸入X輸出擁有最大后驗(yàn)概率的Y,其中X=(x1,x2,…,xn)為判別指標(biāo);n為判別指標(biāo)的維數(shù);Y為類別[20]。
1.2.1 貝葉斯模型
貝葉斯計(jì)算公式為
(2)
式中Bi為水源類別;A為水樣;P(Bi)為先驗(yàn)概率,即未經(jīng)計(jì)算僅通過經(jīng)驗(yàn)和直覺來判斷該水樣屬于某種水源的概率;P(A|Bi)為條件概率,即當(dāng)水樣屬于不同水源時(shí)出現(xiàn)某種水質(zhì)離子的概率;P(Bi|A)為后驗(yàn)概率,即當(dāng)獲得水質(zhì)離子測量值的條件下該水樣屬于某種水源的概率。
針對礦井水源水質(zhì)離子的特點(diǎn),將貝葉斯模型細(xì)化,并對貝葉斯模型中的參數(shù)做進(jìn)一步調(diào)整:i為水樣中的水質(zhì)離子指標(biāo);j為某種水源;(i=1,2,3,…,n)(j=1,2,3,…,m)。因此,原貝葉斯公式修改為
(3)
式中xi為水樣中第i個(gè)水質(zhì)離子的監(jiān)測值;yij為當(dāng)水源種類為j時(shí)水質(zhì)離子i的標(biāo)準(zhǔn)值。
1.2.2 貝葉斯模型計(jì)算步驟
1)計(jì)算P(yij),即未經(jīng)計(jì)算水質(zhì)離子就判斷該水樣屬于哪種水源,此時(shí)水樣屬于每種水源的概率值相同。
(4)
2)計(jì)算P(xi|yij),此處采用距離方法[21],即取水質(zhì)離子的監(jiān)測值與標(biāo)準(zhǔn)值間距離絕對值的倒數(shù)進(jìn)行計(jì)算[22],即
(5)
式中Lij=|xi-yij|,(i=1,2,3,…,n)。
3)計(jì)算,P(yij|xi)按照式(3)計(jì)算。
4)求多種水質(zhì)離子綜合時(shí)水樣屬于水源的概率,其中ωi為水質(zhì)離子i的權(quán)重。
(6)
5)以最大概率確定水樣歸屬
(7)
變異系數(shù)法(coefficient of variation method)是利用各項(xiàng)指標(biāo)所含信息來計(jì)算指標(biāo)的權(quán)重,是一種客觀賦權(quán)方法。這種方法的基本做法是:在評價(jià)體系中取值越大的指標(biāo),越能反映該項(xiàng)指標(biāo)的重要程度。變異系數(shù)越大說明該離子的重要程度越大,該水質(zhì)離子在水樣中起的作用就越大,越能代表該水樣,故可用變異系數(shù)確定的變異性權(quán)重來確定水質(zhì)離子的重要程度。通過變異系數(shù)法來計(jì)算權(quán)重,避免了主觀賦權(quán)方法中專家的偏好對結(jié)果的影響[23-24]。數(shù)據(jù)處理步驟如下。
1)數(shù)據(jù)標(biāo)準(zhǔn)化
將第i個(gè)指標(biāo)的實(shí)際數(shù)值記為Xi,該組數(shù)據(jù)的最大值記為Xmax,最小值記為Xmin,數(shù)據(jù)標(biāo)準(zhǔn)化之后的值記為Zi,通過公式計(jì)算[25]。
(8)
(9)
3)計(jì)算各指標(biāo)賦權(quán)重
(10)
在對主成分分析、變異性權(quán)重和貝葉斯判別模型相結(jié)合后,構(gòu)成了改進(jìn)貝葉斯判別模型。并在此基礎(chǔ)上建立起改進(jìn)貝葉斯礦井水源識(shí)別模型(圖1)。
圖1 改進(jìn)貝葉斯判別的礦井水源識(shí)別模型Fig.1 Mine water source identification model of improved Bayesian discrimination
礦井水源識(shí)別模型的實(shí)驗(yàn)步驟(圖2)為:①整理水源數(shù)據(jù),進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,計(jì)算協(xié)方差矩陣、特征向量、特征值,寫出主成分并根據(jù)主成分貢獻(xiàn)率來選取在水源中起主要作用的水質(zhì)離子;②根據(jù)總水源種類計(jì)算水樣的先驗(yàn)概率;③計(jì)算變異系數(shù),在多指標(biāo)綜合計(jì)算概率時(shí)代替原公式中的權(quán)重w(數(shù)據(jù)標(biāo)準(zhǔn)化、計(jì)算標(biāo)準(zhǔn)差和變異系數(shù));④推求多指標(biāo)綜合下的后驗(yàn)概率;⑤以最大概率歸屬原則確定該水樣歸屬。
圖2 改進(jìn)貝葉斯判別模型結(jié)構(gòu)Fig.2 Model structure of improved Bayesian discrimination
在相關(guān)系數(shù)矩陣中,若相關(guān)性小于0.3,說明離子間存在弱相關(guān);若相關(guān)性在0.3與0.6間,說明離子直接存在中等強(qiáng)度關(guān)系;若相關(guān)性大于0.6,則離子間存在強(qiáng)相關(guān)關(guān)系(表2)。說明各水質(zhì)離子間存在相關(guān)關(guān)系和重疊信息,例如Ca2+和Mg2+關(guān)聯(lián)度達(dá)到了92.9%。若直接使用冗余重疊信息進(jìn)行判斷,有可能會(huì)對判別結(jié)果產(chǎn)生影響,所以要進(jìn)行降維來減少參與判別模型的水質(zhì)離子數(shù)量。
表2 水化學(xué)指標(biāo)相關(guān)系數(shù)Table 2 Correlation coefficients of hydrochemical index
通過對各主成分進(jìn)行方差貢獻(xiàn)率(表3)分析,可以根據(jù)需要來選取需要的主成分。前5個(gè)水質(zhì)離子的累積方差貢獻(xiàn)率達(dá)到了99.55%,說明這5個(gè)水質(zhì)離子幾乎完全可以代表水樣中所有離子的特征。
表3 成分方差貢獻(xiàn)率Table 3 Contribution rate of component variance
根據(jù)2.2確定的2.1表1中(1-26號(hào))主要水質(zhì)離子,以及1.3對于變異系數(shù)法的論述,通過MATLAB軟件實(shí)現(xiàn)各主要水質(zhì)離子的權(quán)重的計(jì)算(表4)。
表4 變異性權(quán)重
根據(jù)1.2中貝葉斯方法的原理及步驟,對表1中作為數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)(1~26號(hào))進(jìn)行回代檢驗(yàn)以及對表1中待檢測樣本數(shù)據(jù)(27~40號(hào))進(jìn)行判別并與直接貝葉斯判別進(jìn)行對比。
表1 屯蘭礦水化學(xué)特征Table 1 Hydrochemical characteristics of Tunlan mine
在14個(gè)礦井水源數(shù)據(jù)待判樣本中,改進(jìn)的貝葉斯模型判別正確個(gè)數(shù)為 11個(gè),原始貝葉斯模型判別正確10個(gè)?;A(chǔ)貝葉斯判別誤判個(gè)數(shù)為5個(gè),總體正確率為64.29%,而改進(jìn)的判別模型誤判個(gè)數(shù)為2個(gè),總體正確率為85.71%(表5)。
表5 預(yù)測結(jié)果對比Table 5 Comparison of prediction results
從表6可以看出,在26個(gè)回代數(shù)據(jù)中,改進(jìn)的貝葉斯模型判別正確個(gè)數(shù)為25個(gè),原始貝葉斯模型判別正確 24個(gè);貝葉斯判別正確率為92.31%,改進(jìn)的貝葉斯方法正確率為96.15%。結(jié)果表明,改進(jìn)后的方法更加準(zhǔn)確,判別準(zhǔn)確率更高。
表6 樣本回代結(jié)果Table 6 Sample back-substitution results
根據(jù)基礎(chǔ)貝葉斯判別模型和改進(jìn)貝葉斯判別模型,對待測樣本進(jìn)行水源類型的歸屬判別。從結(jié)果(圖3)中可以看出第5,第6,第9,第11,第13個(gè)水源數(shù)據(jù)類別判別有誤,而改進(jìn)后的貝葉斯判別法后只在第6,第9個(gè)水源類型判別有誤。
圖3 預(yù)測結(jié)果對比Fig.3 Comparison of prediction results
圖4表示對樣本數(shù)據(jù)回代進(jìn)行水源類別的歸屬判別,在實(shí)驗(yàn)中基礎(chǔ)貝葉斯判別在第5,第12個(gè)水源數(shù)據(jù)類別判別有誤,而改進(jìn)后的貝葉斯判別法僅在第12個(gè)水源數(shù)據(jù)判誤。
圖4 樣本回代結(jié)果Fig.4 Sample back-substitution results
在待測樣本數(shù)據(jù)類型判別中改進(jìn)的貝葉斯模型較基礎(chǔ)貝葉斯模型的準(zhǔn)確率從64.29%提升到85.71%,提升了21.42%,而回代樣本從92.3%提升到96.15%,提升了3.85%,說明改進(jìn)后的算法準(zhǔn)確率有顯著的提升(表7)。
表7 模型預(yù)測結(jié)果比較Table 7 Comparison of model prediction results
1)經(jīng)主成分分析后的水質(zhì)離子維數(shù)降低,降維后的數(shù)據(jù)能夠很好地保留原數(shù)據(jù)的基本信息,提取出起主要作用的水質(zhì)離子,避免因信息疊加和人為選取水質(zhì)主成分的主觀性;通過變異系數(shù)來客觀賦予權(quán)值可去量綱化及消除人為賦予權(quán)值的影響,并且較為客觀地反映水質(zhì)離子在樣本中的重要程度,能夠識(shí)別指標(biāo)數(shù)據(jù)的變化信息。
2)樣本回代組和樣本測試組的判別準(zhǔn)確率較傳統(tǒng)貝葉斯模型有明顯提高,判別結(jié)果可信度高,為水源判別提供了一種新的識(shí)別思路,可為礦山防治水提供依據(jù)。