梁戈龍,李繼升,馮來宏,杜 松,李唐玥琪
(1. 華能慶陽煤電有限責任公司核桃峪煤礦,甘肅 慶陽 745306;2. 華能煤炭技術研究有限公司,北京 101100;3. 中國煤炭地質(zhì)總局勘查研究總院,北京 100039)
礦井安全是一直困擾人類的一項大問題,煤礦突水是我國華北型煤田的主要危險之一。及時準確地預測礦井突水水源對礦井生產(chǎn)具有重要意義,預測礦井突水的許多因素在很大程度上都具有不確定性[1]。在樣品主要成分顯而易見的情況下,貝葉斯定律適用于具有幾個因素的樣品的模糊綜合評價。雷西玲使用BP算法和神經(jīng)網(wǎng)絡預測了山區(qū)的水源[6],BP神經(jīng)網(wǎng)絡使用逆變誤差法來確定人類大腦中模擬信息處理過程的能力的值,可以識別大量用于突水水源的非線性關系的各種數(shù)據(jù)。但是,由于算法的緩慢收斂,以及初始值和設置對結(jié)果的影響更大,使得該方法的準確度易受影響。主成分分析(PCA)在一定程度上采用了降維思想,抵消了水樣品之間復雜信息的影響,將大量指標轉(zhuǎn)化為小而全面的指標的同時繼續(xù)反映了原來的變量信息。
ELM算法是由閻志剛等人在2006年開發(fā)的一種算法,該算法不需要在學習過程中調(diào)整網(wǎng)絡的輸入值,也不需要調(diào)整隱藏層的位移、綜合性能等特征,可以有效地消除數(shù)據(jù)之間的關聯(lián),減少計算的復雜性。當網(wǎng)絡引入變量時,通常包含相互關聯(lián)信息的煤礦影響因素,重建樣本訓練可減少神經(jīng)網(wǎng)絡結(jié)構(gòu)復雜性并提高收斂速度。使用PCA和ELM的組合方法來預測煤礦的突水水源,收集分析礦井的各充水含水層水化學歷史數(shù)據(jù),并根據(jù)PCA-ELM構(gòu)建水源識別模型,為煤礦突水預測提供了新的思路和方法。
本文使用PCA分析礦井水樣品中的水化學數(shù)據(jù),以確定不同含水層中水樣的主要控制因素,以便更準確地確定各充水含水層特征。在此基礎上,利用ELM模擬水樣本中的基本控制因素,提高ELM算法的運算速度和精確度,并為其他類似礦區(qū)相似礦井提供技術支持。
我國煤礦由于礦井突水遭受了大量財產(chǎn)損失和人員損失,因此預防和應對水災的科學技術措施對快速正確定義礦井突水水源是非常關鍵的。由于各充水含水層的不同地質(zhì)特征,不同來源的礦井突水水源的水化學特征差異明顯[8]。常用的模糊評價方法如灰色關聯(lián)理論、支持向量機、BP神經(jīng)網(wǎng)絡分析理論、貝爾斯、費舍爾等大都沒有考慮影響指數(shù)之間的信息存儲,導致判別結(jié)果的誤差。為了消除這一影響,本文采用了一種主要的方法來分析礦井中有爭議的水源模型中的因素指標。
主成分分析(Principal Component Analysis, PCA)是一種多元統(tǒng)計數(shù)學方法,將高階問題轉(zhuǎn)化為低量度問題,簡化計算的過程,盡可能避免試驗的誤差結(jié)果,避免無用重復的計算。通過主成分分析的方法,其主元件之間的分析變量不僅小,而且十分有利于分析,使之創(chuàng)建的指標之間進行相互關聯(lián),有關變量參數(shù)的信息占原始數(shù)據(jù)樣本的大部分。
當抽樣容量非常大時,綜合評估就更加困難,因為在使用初級組件時,處理結(jié)果的最佳方式是用較低的初級組件而不是較低的初級信息,即損失最少的信息。為了解決這個矛盾,必須研究確定關鍵成分數(shù)量的指導原則。
最大數(shù)據(jù)突變的原則是主組件必須采取最大的數(shù)據(jù)偏轉(zhuǎn)方向,以便主組件能夠盡可能多地表達源信息。
最小乘法原理分析的主要成分是在新空間中引入原始數(shù)據(jù)。從幾何角度看,信息分析在核心成分中所造成的最小損害必須在正方形中實現(xiàn),并在新超平面中達到原樣品投影的最小距離。
群體相似性改變了一個基本原則,在這個原則中,為了分析信息造成的最小損失,需要對數(shù)據(jù)之間的相似之處進行最小的改變。對角線抽樣系統(tǒng)的最佳綜合表達原理是使主組件盡可能接近初始變量,而不損失源。
2.2.1 PCA法
PCA將原始指標組合成一組新的相互關聯(lián)的綜合指標,同時提取了盡可能多的反映原有指標的信件,反映了盡可能多的初始指標。假設在評估一個物體時,源信息是集中的,且有選擇性的,每個樣本都有一個變量P,這使它成為一個n×p階的樣本數(shù)據(jù)矩陣,記為式(1)。
Xi=[xi1,xi2,…,xip]T
(1)
貢獻率是指出,從任何核心組件中提取的信息占總數(shù)的很大一部分,投資水平越高,相關主組件反映總信息的可能性就越大。基本成分k的貢獻率如式(2)。
(2)
在通常的情況下,分析前m個主成分的貢獻率,詳見式(3)。
(3)
如果前面的數(shù)據(jù)大于85%,用前m個主成分的組合如式(4)。
P=Y1,Y2,…,Ym
(4)
因此,與其改變原始數(shù)據(jù)X,不如減少數(shù)據(jù)量,以便將原始變量轉(zhuǎn)化為不相關的變量,而失去盡可能少的源信息方向。
2.2.2 ELM
(5)
相比于其他分類模型,ELM具有良好的分類效果,但在面對高維數(shù)據(jù)時建模時間較長。用主成分分析法對高維數(shù)據(jù)集進行特征提取,再將提取后的數(shù)據(jù)集輸入ELM模型進行建模和調(diào)參,將有效地提高ELM收斂速度和建模效率。
利用PCA-ELM的分析方法預測煤礦突水的流程如圖1所示。
圖1 基于PCA-ELM的煤礦突水預測流程Fig.1 Prediction process of coal mine water inrushbased on PCA-ELM
首先利用PCA法分析了影響煤礦突水的許多影響因素,得到了控制因素,決定了各充水含水層的水化學特征,然后將只包含基本管理要素的抽樣數(shù)據(jù)分解為訓練、驗證和測試。最后,通過與ELM算法相匹配,評價PCA-ELM用來預測突水的優(yōu)勢。
基于PCA-ELM的煤礦突水預測模型構(gòu)建步驟如下:
(1)利用PCA的方法,對煤礦突水主控影響因素進行篩選,并檢查正常使用煤炭的采樣基質(zhì),并在x矩陣中標準化處理,根據(jù)共變矩陣R確定主組件的數(shù)量、主組件輸入系數(shù)和總貢獻率;通過計算主成分貢獻率及累積貢獻率,基于凱塞標準選擇累積貢獻率最高的3個主成分。為了使3個主成分的差異性最大化,采用最大方差旋轉(zhuǎn)法對主成分軸進行了適當旋轉(zhuǎn),使每個主成分具有最高荷載的變量數(shù)最少,從而簡化對主成分的解釋,更好地揭示水化學指標所表達的信息。通過基本組件的數(shù)量構(gòu)建ELM模型的教學樣本。
(2)建立ELM網(wǎng)絡模型。在處理了經(jīng)過分析的各充水含水層水化學歷史數(shù)據(jù)后,收集了數(shù)據(jù)樣本,以便重新設計和創(chuàng)建ELM網(wǎng)絡模型。首先,需要一個樣品來練習,詳見式(6)。
{xi,ti},i=1,2,…,N
(6)
初始隱藏層節(jié)點數(shù)設為i。
(3)利用統(tǒng)計數(shù)據(jù)驗證煤礦突水預測模型,如果獲得預測結(jié)果與其他算法運算結(jié)果相比具有明顯的優(yōu)勢,可以開始重建模型和算法基本成分,結(jié)果將更為可取。
本文選擇了研究中國典型華北型煤田的礦井水數(shù)據(jù),根據(jù)這些數(shù)據(jù)運用PCA-ELM和ELM預測礦井突水狀況。壓力影響作為煤礦突水輸入?yún)?shù)。參數(shù)定義原則:不能量化的數(shù)據(jù)在兩位數(shù)模型中量化,定量的數(shù)據(jù)定量表示,如果沒有構(gòu)建,則斷層為1或0。由于氣象因素和水化學測試數(shù)據(jù)類型不同,在構(gòu)建預測模型之前,必須將影響天氣的因素綜合起來,并將所有實驗數(shù)據(jù)系統(tǒng)地輸入進去。
在建模過程中,當隱藏節(jié)點的數(shù)量不同時,模型的性能就會大不相同,圖2提供了具體的分析結(jié)果。
圖2 激勵函數(shù)對應的測試精度Fig.2 Test precision corresponding to the excitation function
由圖2可知,在正弦、閾值型、三角基、徑向基4個激勵函數(shù)中,當激勵函數(shù)為正弦且節(jié)點個數(shù)為25時,測試精度最高,往后隨著節(jié)點個數(shù)增加,測試精度逐漸降低。因此,對比選擇正弦函數(shù)為算法相對應的激勵函數(shù),隱藏節(jié)點個數(shù)為25。
PCA方法用于減少原始數(shù)據(jù),PCA-ELM測試和ELM的測試進度比較結(jié)果如圖3所示。
圖3 ELM與PCA-ELM的測試精度比較Fig.3 Comparison of test accuracies betweenELM and PCA-ELM
據(jù)圖3所知,ELM預測的準確性總是比PCA-ELM低。分析非主要成分的測試集中冗余影響因素數(shù)據(jù)眾多,而只有主控因素的碳元素被控制。選擇的最佳參數(shù)分別用于ELM和PCA-ELM的準備和測試,測試結(jié)果見表1。
表1 ELM與PCA-ELM實驗結(jié)果比較
表1顯示,PCA-ELM分析方法不同于ELM方法,其輸入數(shù)據(jù)分析的主要成分,減少相應的試驗變量,降低多余部分數(shù)據(jù)產(chǎn)生的誤差,提高模型預測精度,并加快模型計算速度,比較算法和計算模型,PCA-ELM方法預測煤礦的突水水源精度更高。
為了解決水樣本中的多樣和水樣本中更小信息的影響,分析了表2的主要成分,表2顯示了系數(shù)矩陣,其中不同的成分解釋了表2中的偏差。根據(jù)表2可知,前3個組件累積解釋91.936%,故認為在各離子中,前3個陽離子作為水樣主要組件來模擬訓練樣本。
3種主成分離子的含量值為輸入值,3種水的類型為輸出值,即網(wǎng)絡設置的輸出節(jié)點數(shù)為3。為了使判別結(jié)果盡可能接近所有的學習樣本,研究樣本的數(shù)量等于學習樣本的數(shù)量,即24;網(wǎng)絡的輸出狀態(tài)為3,相當于剩下的3個層。在本文的ELM模型中,分析S型函數(shù)(Sigmoid),其為隱含層神經(jīng)元的傳遞函數(shù),而修正的雙方都使用ELM算法來指導樣品,確定ELM 1的類型,即分類識別。在ELM模型中,使用MATLAB軟件模擬測試樣品,該樣本應在10 s內(nèi)分類,最后,其分析結(jié)果見表3。
對水樣進行分類的結(jié)果顯示,檢測結(jié)果100%相同,表明PCA-ELM混合的礦井突水水源方法分類識別性能好,具有一定價值。
表2 各成分解釋方差率
表3 ELM識別結(jié)果
與此同時,使用模擬BP神經(jīng)元網(wǎng)絡將輸入層設置為3,對應于Na+、Ca2+、Mg2+,因此,設置3號輸出神經(jīng)元的網(wǎng)絡結(jié)構(gòu)為“3-7-3”型,logsig訓練算法用于傳輸,trainlm傳輸功能,結(jié)果如表4所示。由表3和表4可知,ELM網(wǎng)絡更精確,學習結(jié)果比BP網(wǎng)絡更準確。
表4 BP網(wǎng)絡識別結(jié)果
BP神經(jīng)元網(wǎng)絡隨機鏈接權值和閡值,在本研究中對隨機抽樣樣本網(wǎng)絡參數(shù)輸出的權值造成誤差甚至引發(fā)不穩(wěn)定模型的情況。
對于各含水層水化學組分差異性不大的礦井突水水源,使用常見的水化學分類法和常規(guī)統(tǒng)計方法并不能很好地判別各含水層水化學組分差異性不大的礦井突水水源,其誤差較大,通過PCA-ELM模型與其它神經(jīng)網(wǎng)絡模型相比,模型的準確率達到100%,其判別效果優(yōu)于BP神經(jīng)網(wǎng)絡模型(83.3%),為礦井突水水源的判別提供了一種新方法。