陰寧寶,郝 軍,余生晨
(1.山西潞安環(huán)保能源開發(fā)股份有限公司,山西 長治 046000;2.山西潞安環(huán)保能源開發(fā)股份有限公司余吾煤業(yè)有限公司,山西 長治 221000;3. 華北科技學(xué)院 計算機學(xué)院,北京 東燕郊 065201)
基于人工智能技術(shù)的礦井水害來源識別模型庫的建立方法研究
陰寧寶1,郝 軍2,余生晨3
(1.山西潞安環(huán)保能源開發(fā)股份有限公司,山西 長治 046000;2.山西潞安環(huán)保能源開發(fā)股份有限公司余吾煤業(yè)有限公司,山西 長治 221000;3. 華北科技學(xué)院 計算機學(xué)院,北京 東燕郊 065201)
為了建立合理的礦井水害識別模型庫,以便提高水害來源識別的準(zhǔn)確率,提出了建立水害識別模型庫(水的水化學(xué)模型)的原則和方法技術(shù)。這個原則是各類水害來源模型內(nèi)部的類內(nèi)離散度盡可能小,使其具有代表性;各個模型之間的類間離散度盡可能大,以便清楚的區(qū)分各個水害來源的總原則。給出了描述這個原則的數(shù)學(xué)公式以及實現(xiàn)上述原則的方法技術(shù)。在山西潞安環(huán)保能源開發(fā)股份有限公司的多個煤礦進行了生產(chǎn)性驗證。生產(chǎn)實踐證明提出的原則和方法技術(shù)是可行的、識別礦井水的來源(判定水的類型)的準(zhǔn)確率可達到95%。
礦山水化學(xué)模型庫;水源識別; 類內(nèi)離散度; 類間離散度
我國煤礦水害嚴(yán)重,急需準(zhǔn)確度高的識別水害來源的方法技術(shù)。在識別水害來源的過程中,建立各種類型水的水化學(xué)模型是必需的一個重要環(huán)節(jié)[1]。待識別的水樣要與模型庫中的水樣進行比對、匹配,以便分類識別。在比對匹配后,待識別的水樣與模型庫中相似度最大的水樣具有同樣的來源[2,3]。在實際中,由于鉆井和切割上下地層的導(dǎo)水?dāng)鄬雍蛯?dǎo)水陷落柱使得地下各層水相互混合,奧灰水通過導(dǎo)水陷落柱和大斷層侵入到第四紀(jì)砂巖水中,導(dǎo)致采集純凈的砂巖水樣發(fā)生困難。地表水通過導(dǎo)水?dāng)鄬酉虑?或下滲)到奧灰水層中,導(dǎo)致采集純凈的奧灰水發(fā)生困難。由于各層水的相互混合,需要人們確定所采集的水樣是否純凈?或純凈度是多少?對分類識別水害來源的影響程度如何?為了解決這些問題,也為了建立合理的礦井水害來源識別模型庫,以便提高水害來源識別的準(zhǔn)確率[4,5],提出了建立水害來源識別模型庫(水的水化學(xué)模型)的原則和方法技術(shù)。這個原則是各類水害來源模型內(nèi)部的類內(nèi)離散度盡可能小,使其具有代表性;各個模型之間的類間離散度盡可能大,以便清楚的區(qū)分各個水害來源的總原則。給出了描述這個原則的數(shù)學(xué)公式以及實現(xiàn)上述原則的方法技術(shù)。在山西潞安環(huán)保能源開發(fā)股份有限公司的多個煤礦,例如,余吾煤業(yè)有限公司所屬煤礦進行了生產(chǎn)性驗證。生產(chǎn)實踐證明提出的原則和方法技術(shù)是可行的、識別礦井水的來源(判定水的類型)的準(zhǔn)確率可達到95%。
為了建立合理的礦井水害識別模型庫,以便提高水害來源識別的準(zhǔn)確率,提出了建立水害識別模型庫(水的水化學(xué)模型庫)遵循的原則如下:
(1)各類水害來源模型內(nèi)部的類內(nèi)離散度盡可能小,使其具有代表性;
(2)各個模型之間的類間離散度盡可能大,以便清楚的區(qū)分各個水害來源。
1.1 原則及意義
離散度的定義:
(1)
某個類的離散度σ越小,則該類的樣本越密集,反之,離散度σ越大,則該類的樣本越分散。
(1)各類水害來源模型內(nèi)部的類內(nèi)離散度的定義是:
(2)
其中,(2)式中各符號的意義同(1)式。
(2)各個模型之間的類間離散度的定義是:
(3)
如果在水化學(xué)模型庫中,某幾類水樣內(nèi)混雜有其它類的水樣,則這幾類水樣表現(xiàn)為:“ 類內(nèi)離散度大,類間離散度小的情況”,如圖1所示,這說明這樣的水化學(xué)模型庫是不成功的,應(yīng)當(dāng)丟棄,要重新建立新的水化學(xué)模型庫。如圖1所示,在兩個指標(biāo)的情況下,1類、2類、3類水樣不容易區(qū)分。
圖1 類內(nèi)離散度大,類間離散度小的情況
如果在水化學(xué)模型庫中,某一類水樣內(nèi)混雜有其它類的水樣,但是不嚴(yán)重,則這幾類水樣表現(xiàn)為:“類內(nèi)離散度大,類間離散度也大的情況”,如圖2所示,這說明這樣的水化學(xué)模型庫建設(shè)的不算成功,但是還可以使用。如圖2所示,在兩個指標(biāo)的情況下,通過某些方法也可以區(qū)分出兩類水樣。
圖2 類內(nèi)離散度大,類間離散度大的情況
如果在水化學(xué)模型庫中,各類水樣內(nèi)都不混雜有其它類的水樣,是純凈的,則這幾類水樣表現(xiàn)為:“類內(nèi)離散度小,類間離散度大的情況”,如圖3所示,這說明這樣的水化學(xué)模型庫建設(shè)的必較成功,是可以使用的。如圖3所示,在兩個指標(biāo)的情況下,1類、2類水樣很容易區(qū)分。
圖3 類內(nèi)離散度小,類間離散度大的情況
為了使不同單位的指標(biāo)(水化驗指標(biāo),有時也稱為“特征” )能夠進行比較,需要將原始數(shù)據(jù)規(guī)格化處理, 即,將數(shù)據(jù)變換為與單位無關(guān)的數(shù)據(jù),然后再判別聚類,采用最大值規(guī)格化方法:
以Ca2+(鈣)離子為例,假設(shè)xi=Ca2+(鈣)離子濃度,最大值規(guī)格化是:
(4)
(4)式中, max(xi)是最大值。
這樣規(guī)格化后,第i個測量(化驗)指標(biāo)的取值在-1~+1之間。
在采集某類水樣的過程中,難免有其它類型的水樣混雜其中。在采集了這樣的水樣之后,建立了一個初步的水化學(xué)模型庫后,該模型庫是否符合“類內(nèi)離散度小,類間離散度大的情況”,還需要檢驗。檢驗方法如下:
在水化學(xué)模型庫中,建立了砂巖水、奧灰水、太灰水、老空水等四種水的模型,每種水是一種類型,是一個聚類。
① 選擇初始值,也可在迭代運算過程中人為修改,以便將n個水化學(xué)模型庫中模式樣本按指標(biāo)分配到各個聚類中心去。
② 計算各類中各樣本的距離函數(shù)等指標(biāo)。
③~⑤ 按給定的要求,將前一次獲得的聚類集進行分裂和合并處理,以獲得新的聚類中心。
④ 為分裂處理,⑤為合并處理,
⑥ 再次疊代運算,重新計算各項指標(biāo),判別聚類結(jié)果是否符合給定的要求,經(jīng)過多次疊代運算后,如果疊代計算結(jié)果收斂,疊代運算結(jié)束。
該方法的具體步驟為:
已知水化學(xué)模型庫中樣本集為{x1,x2,...,xN},將n個模式樣本{x1,x2,...,xN}輸入計算機程序中。
第一步:規(guī)定下列控制參數(shù)(是預(yù)選的參數(shù)):
K=期望得到的聚類數(shù),也即預(yù)期的聚類中心數(shù)目;
QN= 一個聚類中的最少樣本數(shù),即,如少于此數(shù)就不作為一個獨立的聚類;
Qs= 一個聚類域中樣本距離分布的標(biāo)準(zhǔn)偏差參數(shù); Qc= 合并參數(shù) ;
L=每次疊代允許合并的最大聚類對數(shù)(類之間的合并);
I=允許疊代的次數(shù)。
設(shè)初始的聚類數(shù)c(本文中為砂巖水、奧灰水、太灰水、老空水等四種水,c=4)和初始的聚類中心wi,i=1,2,...,c.
第二步:按照下述關(guān)系
如果 ‖x-wi‖ < ‖x-wj‖,j=1,2,...,c. j≠i 則 x∈Ri
將所有樣本分到各個聚類中去。Ri是第I個聚類,其中心為wi
第三步:若有任何一個Ri,其基數(shù)Ni 第六步:計算所有樣本距離其相應(yīng)的聚類中心的平均距離 第七步:(a)若這是最后一次疊代(由參數(shù)I確定),則置θc=0,轉(zhuǎn)下面第十一步; (c) 若是偶數(shù)次疊代,或若是c≥2K,則轉(zhuǎn)第(十一)步。否則,往下進行。 第八步:對每一個聚類Ri,用下列公式求標(biāo)準(zhǔn)差σi=(σi1,σi2,...,σin)T 第九步:對每一個聚類,求出具有最大標(biāo)準(zhǔn)偏差的分量σimax,i=1,2,...,c. 第十步:若對任一個σimax,i=1,2,...,c,存在σimax>θs,并且有: 給定一個α值,0<α1, 令ri=σimax, 則和的距離不同,但又應(yīng)使Ri中的樣本仍然在這兩個新的集合中。 第十一步:對于所有的聚類中心(本文中為砂巖水、奧灰水、太灰水、老空水等四種水,c=4),計算兩兩之間的距離(即,每一個類的聚類中心和其它類的聚類中心之間的距離) Dij=‖wi-wj‖,i=1,...,c-1 j= i +1,i +2,...,c 第十二步:比較Dij和θc,將Dij<θc的值按上升次序排列: Di1j1 第十四步:若這是最后一次疊代,則算法終止。否則,若根據(jù)經(jīng)驗需要改變參數(shù),則轉(zhuǎn)第一步;若不需要改變參數(shù),則轉(zhuǎn)第二步。本步中,還應(yīng)將疊代計數(shù)器加1。算法終止并完成。 最后,將樣本集{x1,x2,...,xN}分為K類(本文為4類)后,再次計算各個水害來源模型內(nèi)部的類內(nèi)離散度和各個模型之間的類間離散度。如果符合:①各類水害來源模型內(nèi)部的類內(nèi)離散度盡可能小、 ②各類模型之間的類間離散度盡可能大的要求,這樣的水化學(xué)模型庫是比較成功的模型庫,可以應(yīng)用到實際的生產(chǎn)中。 建立水化學(xué)模型庫需要各類純凈的水樣,但是,實際中很多因素會導(dǎo)致采集到的水樣是多種類型水的混合物,而不是純凈的水樣,這給建立水化學(xué)模型庫帶來了困難。多種類型水的混合水樣滿足不了建立水化學(xué)模型庫的需要,這時,需要對采集的水樣進行檢測,檢測其是否是純凈的水樣,是否滿足建立水化學(xué)模型庫的需要。采用研究得出的原則和方法技術(shù)建立了山西潞安環(huán)保能源開發(fā)股份有限公司等煤礦的水化學(xué)模型庫,為以后識別水害的來源打下了良好的基礎(chǔ)。 在山西潞安環(huán)保能源開發(fā)股份有限公司的多個煤礦,建立了識別砂巖水、奧灰水、太灰水、老空水等四種類型水的水化學(xué)模型庫。最初采集了17個砂巖水、23個奧灰水、15個太灰水、9個老空水的水樣,共64個水樣。在4種類型水的各自類內(nèi)離散度小于0.5(盡可能小)和4種類型水的類間離散度大于0.9(盡可能大)的要求下,剔除了23個不符合建立水化學(xué)模型庫的水樣,用剩下的41個相對比較純凈的水樣最終建立了了識別砂巖水、奧灰水、太灰水、老空水等四種類型水的水化學(xué)模型庫。在這個水化學(xué)模型庫中,使用了9個水化學(xué)指標(biāo)(特征)和一個溫度指標(biāo)。 用14個已知來源的砂巖水、奧灰水、太灰水、老空水的水樣,分別用人工智能方法、模糊聚類分析法、支撐矢量機方法,分別使用研究得出的模型庫和用一般方法建立的模型庫,檢驗研究得出的模型庫的性能。使用研究得出的模型庫識別水的來源的正確率平均為95%;使用一般方法建立的模型庫識別水的來源的正確率平均為64%,見表1。由表1可見使用研究得出的模型庫較用一般方法建立的模型庫能夠顯著的提高識別水的來源的正確率。 表1給出了建立在水化學(xué)模型庫之上的水害來源的識別結(jié)果[6,7,8]。 表2給出了建立在水化學(xué)模型庫之上的水害來源的識別結(jié)果和部分?jǐn)?shù)據(jù)。 表1 建立在水化學(xué)模型庫之上的水害來源的識別結(jié)果 表2 建立在水化學(xué)模型庫之上的水害來源的識別結(jié)果和部分?jǐn)?shù)據(jù) 由表1和表2可以看出建立在研究得出的水化學(xué)模型庫之上的水害來源的識別結(jié)果是可用的、有效的,從而證明了建立的水害來源識別模型庫(水的水化學(xué)模型)的原則和方法技術(shù)是有效的而且是可行的。 [1] 董書寧.對中國煤礦水害頻發(fā)的幾個關(guān)鍵科學(xué)問題的探討[J].煤炭學(xué)報,2010,35(1):66-71. [2] 高衛(wèi)東,何元東,李新社.水化學(xué)法在礦井突水水源判別中的應(yīng)用[J].礦業(yè)安全與環(huán)保, 2011, 28(5): 44-45. [3] 石磊,徐樓英.基于水化學(xué)特征的聚類分析對礦井突水水源判別[J].煤炭科學(xué)技術(shù),2010(3):97-100. [4] 周健,史秀志,王懷勇.礦井突水水源識別的距離判別分析模型[J].煤炭學(xué)報,2010,35(2):278-282. [5] 楊本水,王從書.祁東煤礦突水災(zāi)害成因分析[J].煤炭科學(xué)技術(shù),2013(31):41-43. [6] 阿淑芳,劉寧寧,余生晨.基于免疫算法改進的反向傳播神經(jīng)元網(wǎng)絡(luò)礦井水害水源識別研究[J].華北科技學(xué)院, 2017, 14(1): 34-40. [7] 李繼君,薛陽,余生晨.基于支持向量機的煤礦井水害水源自動識別方法研究[J].華北科技學(xué)院, 2015, 12(2): 25-29. [8] Vapnik V N.The Nature of Statistical Learning Theory[M].New York: Springer-Verlag,1995. ResearchonEstablishmentMethodofMineWaterSourceIdentificationModelBaseBasedonArtificialIntelligence YIN Nin-bao1, HAO Jun2,YU Sheng-chen3 (1.ShanxiLu’anEnvironmentalEnergyDevelopmentCo.Ltd,Changzhi, 046000,China; 2.Yu’wuCoalIndustryCo.Ltd.,Changzhi, 221000,China;3.SchoolofComputer,NorthChinaInstituteofScienceandTechnology,Yanjiao, 065201,China) In order to establish a reasonable model library of mine water disaster, and to improve the accuracy of water source identification, the principles, methods and techniques of establishing model library of water disaster identification are presented. The principles is that the intra class dispersion of each water source model is as small as possible, which makes it representative and the inter class dispersion between the models is as large as possible in order to clearly distinguish each source of water damage. The mathematical formulas for describing this principle and the methods and techniques for realizing the above principles are given. Production verification has been carried out in the coal mine owned by Shanxi Lu’an environmental energy development Co.Ltd. Experimental results and production practice show that the principle and method is efficient and feasible,and the detection right rate of flood waters was above 95% and the method is efficient and feasible. Model library of mine water chemistry;Water source distinguishing ;Intra class dispersion of each water source model ;Inter class dispersion between the models 2017-04-10 中央高?;究蒲袠I(yè)務(wù)費資助(JSJ1207B ,3142013093) 陰寧寶(1970-),男,山西沁源人,大學(xué)畢業(yè),山西潞安礦業(yè)(集團)有限責(zé)任公司工程師,研究方向:礦井水害來源識別、煤礦安全生產(chǎn)管理。E-mail:yusc5291@sina.com TD745.21 A 1672-7169(2017)04-0024-053 實驗結(jié)果與討論