林海飛,劉時豪,周 捷,徐培耘,雙海清
(1.西安科技大學 安全科學與工程學院,陜西 西安 710054;2.西安科技大學 煤炭行業(yè)西部礦井瓦斯智能抽采工程研究中心,陜西 西安 710054)
瓦斯是影響礦井安全生產的主要因素之一,隨著煤炭開采深度及強度增大,礦井瓦斯涌出量也逐漸增加[1-3]。瓦斯涌出量的準確預測可為制定瓦斯防治措施提供重要依據(jù)[4-5]。針對瓦斯涌出量預測,傳統(tǒng)的礦山統(tǒng)計法、分源預測法、瓦斯地質統(tǒng)計法和類比法等尚未考慮瓦斯涌出是一個動態(tài)非線性系統(tǒng)[6-8]。
為解決該問題,基于機器學習算法、數(shù)據(jù)挖掘等技術的瓦斯涌出量動態(tài)預測方法得到了快速發(fā)展。此類預測方法主要分為考慮多參數(shù)指標和時間序列兩類。根據(jù)影響瓦斯涌出量諸多參數(shù)建立起的多參數(shù)指標預測方法[9-15],大多數(shù)煤礦只能提供瓦斯涌出量歷史數(shù)據(jù),對于影響瓦斯涌出量的煤層厚度、鄰近層瓦斯含量等相關數(shù)據(jù)難以詳盡[16],加之對影響參數(shù)取舍不同,使得建立的預測模型與實際情況仍有一定差距。因此,諸多學者開展了瓦斯涌出量時間序列的預測研究分析。陶云奇等[17]將改進的灰色模型與馬爾柯夫模型結合建立了中嶺煤礦瓦斯涌出量預測模型;高莉等[18]利用混沌時間序列特性構建了小波-徑向基神經網(wǎng)絡預測模型;單亞鋒[19]、程健[20]等通過對時間序列進行相空間重構構建了瓦斯涌出的混沌預測模型;在以上研究基礎上引入信號分解中的經驗模態(tài)分解方法,預先對瓦斯涌出量時序數(shù)據(jù)進行分解處理,而后運用支持向量機、粒子群-支持向量機、果蠅-極限學習機等模型對其預測,進一步提升了瓦斯涌出量預測精度[8,21-24]。
但基于經驗模態(tài)分解構建的預測模型,分解過程中若瓦斯涌出量時序數(shù)據(jù)極值點分布不均勻會出現(xiàn)模態(tài)混疊、端點效應等問題,進而影響預測精度;同時,瓦斯涌出量時序數(shù)據(jù)作為眾多影響因素的綜合表征,需進一步從時序數(shù)據(jù)本身來挖掘其潛在規(guī)律。因此,筆者以陜西黃陵某礦采煤工作面347 個日監(jiān)測絕對瓦斯涌出量數(shù)據(jù)為例,應用基于局部加權回歸的周期趨勢分解(Seasonal-Trend decomposition procedure based on Loess,STL)和集成經驗模態(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)進行數(shù)據(jù)分解,通過遺傳算法(Genetic Algorithms,GA)參數(shù)尋優(yōu)后的支持向量回歸機(Support Vector Regression,SVR)構建了可以挖掘數(shù)據(jù)本身潛在規(guī)律的STL-EEMD-GA-SVR預測模型(簡稱SEGS),并與EEMD-GA-SVR、GA-SVR和高斯過程回歸(Gaussian Process Regression,GPR)模型預測效果進行對比分析,以期為瓦斯涌出量的精準預測提供有效方法。
時序數(shù)據(jù)通??杀环纸鉃橼厔蓓?、周期項和不規(guī)則波動項3 部分[25]。工作面日產量、日推進度、煤層和圍巖瓦斯含量、地面大氣壓、地質構造、開采深度及風量等都會對瓦斯涌出量產生影響[26],其中開采深度、煤層和圍巖瓦斯含量等對工作面瓦斯涌出量產生趨勢性影響;日產量、日推進度及風量等對工作面瓦斯涌出量產生周期性影響;地質構造變化、大氣壓力變化、周期來壓等對工作面瓦斯涌出量產生突變影響,這些因素影響都可表征于瓦斯涌出量時序數(shù)據(jù)。直接使用原始數(shù)據(jù),會使數(shù)據(jù)利用不充分,因此,采用STL分解算法對瓦斯涌出量時序數(shù)據(jù)進行分解處理[27-28]。
STL 包括加法和乘法2 種模型[29],均可將時序數(shù)據(jù)分解為趨勢項Tt、周期項St和不規(guī)則波動項It:
加法模型適用于相對穩(wěn)定數(shù)據(jù)分解,乘法模型適用于趨勢項隨時間呈現(xiàn)波動變化的數(shù)據(jù)分解。由于所分析瓦斯涌出量數(shù)據(jù)整體時序圖呈相對穩(wěn)定狀態(tài),因此,選用加法STL 時間序列對數(shù)據(jù)進行分解。
STL 關鍵參數(shù)設定:控制趨勢效應變化速度的t.window 設為13,控制周期效應變化速度的s.window設為“period”,Loess 過程使用魯棒擬合即robust=T。
瓦斯涌出量時序數(shù)據(jù)經STL 分解后,會得到波動較大、尖峰較多的不規(guī)則波動項,此類數(shù)據(jù)不利于模型訓練學習。EEMD 方法通過在待分解信號中加入白噪聲,可有效抑制經驗模態(tài)分解混疊現(xiàn)象[30-31]。因此,采用EEMD 方法將瓦斯涌出量分解為具有不同特征尺度、尖峰和波動更緩的時序分量數(shù)據(jù)。EEMD 分解原理如下:
(1) 將符合正態(tài)分布的白噪聲信號加到原始信號中:
式中:X(t)為原始信號;ωj(t)為白噪聲信號;X'(t)為生成的新信號序列;j=1,2,···,M,M為測試次數(shù)。
(2) 新信號序列進行EMD 分解,得到IMFs(Intrinsic Mode Functions,IMFs)分量:
式中:n為經EMD 分解得到的IMFs 分量個數(shù);ci,j(t)為在第j次實驗分解中的第i個IMFs 分量;rnj(t)為分解得到的殘差余量。
(3) 重復上述(1)、(2)步,每次加入不同正態(tài)分布的白噪聲。
(4) 對各IMFs 分量求均值得到最終IMFs 分量:
EEMD 關鍵參數(shù)設定[32]:白噪聲標準差設為0.2,白噪聲次數(shù)設為100。
SVM 在處理小樣本、非線性以及高維識別問題上優(yōu)于其他機器學習算法[33]。SVR 則是在SVM 基礎上通過引入不敏感損失函數(shù)實現(xiàn)了回歸功能,其具體實現(xiàn)步驟如下:
(1) 假設高維空間的回歸函數(shù)為:式中:ω為權值向量;ψ(x)為非線性映射函數(shù);b為偏置值。
(2) 引入線性不敏感損失函數(shù)ε,松弛變量ξi,并求解以下最優(yōu)化問題:
式中:C為懲罰因子;l為樣本集個數(shù)。
(3) 對式(7)引入拉格朗日函數(shù),求解得到最終回歸函數(shù):
SVR 獨立預測時,其懲罰因子C和核函數(shù)gamma為經驗設定,難以保證模型參數(shù)最優(yōu)。GA 作為一種具有良好并行性、魯棒性和全局尋優(yōu)能力的自適應全局隨機搜索優(yōu)化算法[34],可有效解決此問題。為此引入GA 對SVR 關鍵參數(shù)全局尋優(yōu),以期建立最優(yōu)GASVR 模型。
GA 優(yōu)化SVR 關鍵參數(shù)設定:最大遺傳迭代次數(shù)100,種群大小40,交叉概率0.3,變異概率0.01,代溝0.95;懲罰因子C尋優(yōu)范圍為[0.01,10],gamma 參數(shù)尋優(yōu)范圍為[0.01,1 000],交叉驗證參數(shù)v為3。
根據(jù)以上分析,構建瓦斯涌出量SEGS 預測模型流程如圖1 所示,具體步驟如下。
圖1 瓦斯涌出量預測模型總框架Fig.1 Overall framework of gas emission prediction mode
(1) 數(shù)據(jù)處理。對缺失、異常樣本集數(shù)據(jù)進行線性插補。
(2) 時序數(shù)據(jù)分解。STL 分解算法將線性插補后數(shù)據(jù)分解成趨勢項、周期項和不規(guī)則波動項;EEMD分解算法在此基礎上將不規(guī)則波動項再次分解,獲得各IMFs 分量及RES 殘差余量。
(3) 模型預測。將STL 和EEMD 分解數(shù)據(jù)分為訓練集、預測集并作歸一化處理,利用訓練集數(shù)據(jù)進行模型訓練獲得最佳GA-SVR 模型,運用預測集數(shù)據(jù)使用GA-SVR 模型進行預測,并對預測結果進行反歸一化處理,獲得各分解分量預測結果。
(4) 分量疊加。將各分量預測結果進行疊加求和,獲得最終瓦斯涌出量預測結果。
(5) 模型效果評價。選用平均絕對誤差(EMA)、平均絕對百分比誤差(EMAP)、均方根誤差(ERMS)和判定系數(shù)(R2)對預測模型效果評估。其公式如下:
式中:αt為瓦斯涌出量原始數(shù)據(jù),m3/min;為瓦斯涌出量預測數(shù)據(jù),m3/min;t=1,2,···,W,d。
以陜西黃陵某礦采煤工作面為研究對象。該工作面主采2 號煤層,煤厚平均3.0 m,煤層傾角平均2°,瓦斯含量0.61~7.70 m3/t,采用本煤層鉆孔、高位鉆孔和上隅角埋管等方法抽采工作面瓦斯。收集該工作面2020-05-16—2021-04-27 瓦斯風排量和抽采量數(shù)據(jù),得到絕對瓦斯涌出量數(shù)據(jù),見表1。
表1 瓦斯涌出量數(shù)據(jù)Table 1 Gas emission data
為保證模型預測精度,構建模型之前需對收集數(shù)據(jù)進行異常值及缺失值檢測。將±1.5IQR(IQR 表示四分位距)之外數(shù)據(jù)點作為異常值,以此為標準繪制如圖2 所示箱線圖。由圖中可知,所搜集數(shù)據(jù)均在正常區(qū)間范圍。針對缺失值通過語句shuju[!complete.cases(shuju),]獲得,見表2 共6 組。
表2 瓦斯涌出量缺失數(shù)據(jù)Table 2 Missing data of gas emission
圖2 異常值判別箱線圖Fig.2 Outlier discriminant boxplot
時間序列模型一般需保證時序數(shù)據(jù)的完整性,若直接剔除缺失值,容易導致數(shù)據(jù)周期錯位。為保證數(shù)據(jù)完整性,需作數(shù)據(jù)插補處理。目前常用插補方法有均值插補、線性插補、多重插補和EM 插補[35]等。為優(yōu)選出所收集數(shù)據(jù)的最佳填補方法,本文將原始數(shù)據(jù)中不包含缺失值的涌出量數(shù)據(jù)(2020-05-16—2020-08-23)作為試驗完整樣本,在隨機缺失情景[36]利用均值插補、線性插補和多重插補進行插補實驗,并將插補結果與實際值進行均方誤差[37]比較,以此評估各方法插補精度。各插補方法均方誤差見表3。
由表3 可知,線性插補的插補精度最高。為此,本文選用線性插補方法插補缺失值,插補結果見表4。
表3 隨機缺失插補誤差對比Table 3 Comparison of interpolation error for random missing values
表4 線性插補填補數(shù)據(jù)Table 4 Linear interpolation fill data values
經線性插補后的數(shù)據(jù)自2020-05-16—2021-04-27 共計347 組。針對瓦斯涌出量時序數(shù)據(jù)作STL 分解,經分解得到趨勢項、周期項和不規(guī)則波動項,如圖3 所示。
圖3 STL 分解后采煤工作面瓦斯涌出量Fig.3 Gas emission data of mining workface after STL decomposition
由圖3 可知,趨勢項和周期項可以提取出大部分有效信息:趨勢項反映了瓦斯涌出量在搜集時間段內的整體變化特征,通過此分解序列可知該工作面瓦斯涌出量初期較小,之后瓦斯涌出量在50~60 m3/min 波動,具有一定的線性特征;周期項符合待分析時間序列平穩(wěn)性的要求,規(guī)律性強,有利于GA-SVR 模型的訓練學習。不規(guī)則波動項主要為一些未被趨勢或周期效應解釋的變化,剩余信息較少,從分解圖中可知其具有較強的波動性和隨機性,波動和尖峰較多,不利于構建時間序列預測模型。
為降低不規(guī)則波動項的波動和尖峰影響采用EEMD分解算法對其進行平穩(wěn)化處理,結果如圖4 所示。
圖4 不規(guī)則波動項EEMD 分解Fig.4 EEMD decomposition of irregular fluctuation term
由圖4 可知,不規(guī)則波動項經EEMD 分解得到7 個IMFs 分量和1 個RES 殘差余量。分解后的各分量數(shù)據(jù)相較于最初數(shù)據(jù),其振動周期逐漸增加、波動趨勢逐漸減緩,平穩(wěn)性明顯優(yōu)化。
為評估EEMD 分解后的數(shù)據(jù)是否會造成不規(guī)則波動項中突變信息的丟失。將不規(guī)則波動項與EEMD分解分量疊加值作對比(圖5、表5)。
由圖5、表5 可知,經EEMD 分解分量疊加后的數(shù)據(jù)曲線與不規(guī)則波動項曲線呈重合態(tài);數(shù)據(jù)分解損失量較小,平均分解損失量為0.000 4 m3/min。EEMD分解分量在保留原始數(shù)據(jù)信息的情況下,降低了原始數(shù)據(jù)復雜度,提升了平穩(wěn)性,更有助于預測模型學習其特征進而提高預測精度。
表5 分解損失量Table 5 Decomposition loss
圖5 不規(guī)則波動項與EEMD 分解分量疊加值對比Fig.5 Comparison of irregular fluctuation term with superposed value of decomposition components by EEMD
為驗證分解序列預測效果,將分解數(shù)據(jù)按一定比例分為訓練集與預測集,共劃分3 種情景(情景一:訓練集100 組,預測集247 組;情景二:訓練集200 組,預測集147 組;情景三:訓練集277 組,預測集70 組)。
運用訓練集數(shù)據(jù)實現(xiàn)GA 對各分量SVR 模型超參數(shù)尋優(yōu),其尋優(yōu)值見表6。以此確定各分量最佳模型參數(shù),完成GA-SVR 預測模型的構建。
表6 GA 各分量SVR 模型超參數(shù)尋優(yōu)值Table 6 Optimal value of hyperparameters for each SVR component model of GA
為驗證構建模型預測效果,選用預測集數(shù)據(jù)對采煤工作面未來一段時期的絕對瓦斯涌出量進行預測。
由于文章篇幅所限,論文以情景三為例,對采煤工作面未來70 d 的瓦斯涌出量進行預測,其各分量模型預測結果如圖6 所示,預測結果絕對誤差見表7。
由圖6、表7 可知,各分量預測模型預測效果較好,其預測曲線與實際曲線重疊度高、擬合優(yōu)度好,平均絕對誤差在0.000 7~0.724 7 m3/min 區(qū)間變化,維持在較低水平。
圖6 時序分解各分量模型預測結果Fig.6 Prediction results of each component model in time series decomposition
表7 各分量模型預測絕對誤差Table 7 Absolute error of each component model
最后,對各分量預測結果進行疊加,重構得到最終絕對瓦斯涌出量預測值(圖7)。由圖7 可知,重構預測值曲線與實測值曲線近乎重合,擬合程度較高;其絕對誤差為0.061 5~1.114 9 m3/min,平均0.385 2 m3/min;相對誤差在0.13%~1.80%,平均0.73%,誤差較小。較好地預測了采煤工作面未來70 d 的瓦斯涌出量走向趨勢,驗證了模型具有較高可行性。
圖7 時序分解模型預測結果Fig.7 Prediction results of time series decomposition model
在3 種情景下對SEGS、EEMD-GA-SVR、GA-SVR和GPR 模型預測結果進行對比(圖8、表8)。
由圖8、表8 可知,SEGS 模型預測效果最優(yōu),驗證了在EEMD 基礎上引入STL 的必要性。情景一、二、三中SEGS 的R2精度分別為0.81、0.92、0.99;其中,情景三中SEGS 模型的R2為0.99,優(yōu)于EEMDGA-SVR 模型的0.98、GA-SVR 模型的0.94。
圖8 不同情景下模型預測結果對比Fig.8 Comparison of model prediction results under different scenarios
由表8 可知,訓練集與預測集比例愈大,SEGS 模型優(yōu)勢愈明顯。情景三中SEGS 模型的EMAP值與其他模型最大差值為1.32%;情景三中SEGS 模型的指標EMAP低于情景二中SEGS 模型的1.67、情景一中的2.93。
表8 各預測模型評價指標對比Table 8 Comparison of evaluation indicators for each prediction model
為驗證瓦斯涌出量時間序列峰值點預測模型的準確性,依據(jù)圖8 所標注峰值點繪制成圖9,各模型峰值點預測誤差對比見表9。由圖9、表9 可知:SEGS 模型的峰值點預測效果優(yōu)于對比模型。3 種情景下SEGS模型的峰值點相對誤差、絕對誤差均低于其他模型。
表9 各模型峰值點預測誤差對比Table 9 Comparison of prediction errors at peak points for each model
圖9 各模型峰值點預測絕對誤差Fig.9 Absolute error of peak point prediction for each model
綜合3 種情景、4 種模型的對比結果可知,SEGS模型在預測精度及峰值點預測上優(yōu)于其他3 種模型,證明了該預測模型在瓦斯涌出量預測領域的適用性。
a.提出了采煤工作面瓦斯涌出量預測SEGS 模型,基于STL 和EEMD 將絕對瓦斯涌出量數(shù)據(jù)分解為趨勢項、周期項和不規(guī)則波動項(IMFs 分量和殘差余量),通過GA 參數(shù)尋優(yōu)后的SVR 建立了預測模型,該模型降低了數(shù)據(jù)復雜度,優(yōu)化了平穩(wěn)性,提高了預測精度。
b.通過對比分析多重、均值和線性插補方法精度,確定采用線性方法來進行缺失數(shù)據(jù)插補,并對6 組缺失數(shù)據(jù)進行處理,保證了數(shù)據(jù)結構的完整性。
c.分析了3 種不同絕對瓦斯涌出量預測集情景下,SEGS 模型、EEMD-GA-SVR 模型、GA-SVR 模型和GPR 模型的預測效果,結果表明SEGS 模型整體預測精度最高、峰值點預測誤差最小(平均相對誤差分別為3.15%、2.33%、1.04%),證實SEGS 模型可有效應用于采煤工作面瓦斯涌出量預測。
d.受客觀條件所限,本文采集的數(shù)據(jù)樣本量有限,今后可針對其他礦井實際情況,進一步驗證SEGS 模型的普適性;一些與采煤工作面絕對瓦斯涌出量相關的特征(如瓦斯?jié)舛取L量等)尚未考慮,今后在數(shù)據(jù)允許的條件下可進一步探究。