陳 茜,黃連兵
(1.煤炭工業(yè)規(guī)劃設計研究院有限公司,北京 100120;2.山東科技大學 電子信息工程學院,山東 青島 266590)
近年來,我國煤礦安全形勢有所好轉,安全事故起數和死亡人數逐年下降,但安全形勢依然嚴峻,煤礦事故頻發(fā),重特大事故時有發(fā)生。據不完全統(tǒng)計,2013—2017年期間全國煤礦事故1 945起,死亡人數3 771人,其中瓦斯事故起數和死亡人數分別占11.21%和30.17%,成為僅次于頂板災害事故的第二大安全事故種類,可見瓦斯仍是引發(fā)煤礦安全事故的主要因素之一。而瓦斯涌出量作為瓦斯防治與管理,礦井通風系統(tǒng)設計的重要基礎數據,快速、精確的預測瓦斯涌出量是實現煤礦安全生產的重要前提。國內外眾多學者對煤礦瓦斯涌出量的預測模型做了大量的研究。齊慶杰等[1]、陳存強[2]、馬文偉等[3]分別采用分源預測法對礦井瓦斯涌出量進行了預測;曹朋等[4]將多元線性回歸和BP神經網絡模型進行組合,預測了礦井瓦斯涌出量;苗杰[5]、施式亮等[6]分別采用灰色系統(tǒng)相關理論對礦井瓦斯涌出量進行了研究;楊宏海[7]、楊明磊等[8]將SVM 回歸與分源預測法相結合建立SVM 分源預測數學模型,對回采工作面的瓦斯涌出量進行了回歸分析;胡坤等[9]利用正則化異常值隔離與回歸方法(LOIRE),結合TLBO優(yōu)化算法,建立了TLBO-LOIRE優(yōu)化預測模型對相關影響因素進行計算分析并對煤礦回采工作面瓦斯涌出量進行了預測。但上述預測模型也存在著一定的缺陷,如:神經網絡模型需要選擇模型及參數,存在著收斂速度慢等缺點;灰色理論預測當原始數據序列波動大并且信息過于分散時,預測精度將會降低;聚類分析法中隸屬度的確定受人為因素影響較大。且上述各種方法都不能很好地解決實際工作中普遍存在的變量之間多重共線性問題。消除變量共線性方法,常見的有主成分分析(Principal Component Analysis,PCA)、線 性 判 定 分 析(Linear Discriminant Analysis,LDA)等方法。雖然它們具有較好的降維效果,但由于其改變了原始特征空間的結構,得到的新特征意義不明,不容易理解。針對以上現狀,提出了一種基于Lasso算法的特征選擇方法,在原始特征空間的基礎上,通過剔除無關和冗余的特征選擇出一個最優(yōu)特征子集,原始數據集的特征意義沒有改變,且具有更好的可讀性。利用從數據角度篩選出的瓦斯涌出量影響因素的主要特征來建立預測模型,從而能夠準確地追蹤回采面瓦斯涌出量的變化規(guī)律。
最小絕對值壓縮選擇模型(Least Absolute Shrinkage and Selection Operator,LASSO)是一種帶有懲罰的正則化稀疏模型,最早由統(tǒng)計學家TIBSHIRANI于1996年提出[10]。為了給LASSO方法提供有效的算法支撐,BRADLEY等[11-12]提出了最小角回歸(Least Angle Regression,LARS)算法。ZOU等[13]提出了Elastic Net方法,該方法在LARS的基礎上加入二范數約束條件,解決了高維小樣本數據的過擬合問題。施萬鋒等[14]提出一種均分式Lasso方法,通過將特征集分組選擇然后合并的方法,解決了LASSO算法在計算高維數據時的內存開銷問題,使得LASSO算法在分布式計算框架中的應用成為可能。
LASSO回歸的基本思想是將回歸系數的絕對值之和約束在一個常數條件下,使得殘差平方和最小,從而使得某些自變量的回歸系數自動壓縮到零,即在傳統(tǒng)線性回歸方法最小平方估計的基礎上增加了絕對值形式的懲罰項,達到變量選擇的目的,得到可解釋的模型[15-17]。
對于多元線性回歸模型:
y=β0+β1x1+β2x2+…+βpxp+ε
(1)
其中,y為因變量;xi(i=1,2,…,p)為自變量;βi(i=1,2,…,p)為未知參數;ε為隨機誤差項。
LASSO方法的系數估計為
(2)
影響瓦斯涌出量的因素眾多,根據大量研究成果,筆者選取回采工作面測量的10個因素為主要影響因素,包括煤層埋藏深度(X1)、滲透率(X2)、煤層厚度(X3)、煤層瓦斯含量(X4)、CH4濃度(X5)、風量(X6)、日產量(X7)、煤層間距(X8)、煤層揮發(fā)分產率(X9)、鄰近層瓦斯含量(X10)[1-9,18-20]。
圖1 LASSO回歸算法的建模過程Fig.1 Flow of LASSO regression algorithm modeling
瓦斯涌出量動態(tài)預測模型訓練過程如下:
1)提取煤礦瓦斯涌出量影響因素原始數據,X=[X1,X2,…,X10]T,為消除不同指標量綱的影響,需要將觀測數據標準化、正規(guī)化,即:
(3)
2)采用機器學習常用的相關性熱圖方法,將屬性之間的線性相關性可視化,并判斷各屬性之間的共線性,如存在,則利用Lasso進行降維處理,反之則直接進行多元回歸分析。
3)若屬性之間存在多重共線性,通過Lasso方法計算后,當影響因素對應的參數回歸結果為“0”時,該特征被舍棄;若非“0”則將該特征列入候選特征集合。從而得到稀疏解,達到降維的目的。
4)得到低冗余特征子集后,利用特征子集進行訓練,創(chuàng)建模型族,即不同的λ值的擬合系數。
5)生成最優(yōu)預測模型:選用十折交叉驗證的方法(10-fold Cross Validation)確定參數,具體步驟如下:①將訓練集合的順序隨機擾亂;②將擾亂后的訓練集合等分為10份;③從參數集合中的第1個參數開始,每次不重復地選擇一個參數;④從第1份開始,每次取出一份作為測試集,其余的作為訓練集;⑤使用訓練集和選擇的參數進行模型訓練;⑥用訓練好的模型對測試集進行預測;⑦對n次的預測結果計算平均識別率;⑧選擇取得最高識別率的測試集參數。
6)根據最優(yōu)參數建立多元回歸方程,進行瓦斯涌出量預測。
馬刺說:“元帥的藍晶馬不吃不喝,整日悲嘶,到第七天,身上汗落如雨,藍晶不融,堆積如丘。后來,馬朝著北方長嘶三聲,就氣絕而死。馬死了,汗晶也在瞬間化成一攤水?!?/p>
將收集到的淮北某礦回采工作面瓦斯涌出量及各影響因素形成樣本集,樣本數據見表1。其中,前57組回采工作面數據作為樣本訓練集,后5組數據作為預測樣本,用于檢驗所建模型的預測效果。
表1 回采工作面瓦斯涌出量和影響因素數據集
續(xù)表
相關性圖是一種表示2個變量之間相關關系的熱圖,是廣泛使用的數據可視化方法之一。采用相關性熱圖對瓦斯涌出量影響因素數據進行更直觀的展示,如圖2所示。計算每組影響因素之間的相關性,每個格子的顏色代表行與列的相關性,顏色越紅代表相關性越強,越藍代表相關性越弱。由圖中可以看出,影響瓦斯涌出量部分屬性之間有很強的相關性,適用于Lasso算法進行特征篩選。
圖2 瓦斯涌出量各影響因素的相關性熱圖Fig.2 Data correlation heatmap of affecting factors
使用Python語言編程進行機器計算,運用Lasso方法對選取的9個屬性進行參數估計與變量選擇,用LARS算法實現計算。采用十折交叉驗證方法進行模型選取,同時獲得模型的性能最優(yōu)估計。通過交叉驗證計算不同alpha取值下的均方誤差(MSE),獲得最優(yōu)估計,結果如圖3所示。
圖3 alpha和均方誤差圖Fig.3 Figure of alpha and mean square error
圖3中橫向虛線表示每個懲罰系數alpha對應的目標均方誤差,橫向實線表示在十折交叉驗證過程中均方誤差的平均曲線??v向虛線表示在所有的alpha值中最優(yōu)解,即當alpha取值為0.012 17時,獲得模型的性能最優(yōu)估計。圖4表示瓦斯涌出量在Lasso回歸中系數隨參數的變化情況,由圖4可知,當參數alpha很小時,變量均未被選入模型中,隨著alpha的不斷增大,變量依次進入模型,當alpha到達一定值時,變量全部進入模型。同時,隨著alpha取值的逐漸增大,壓縮程度增大,所選入模型的變量個數越少。
圖4 瓦斯涌出量在LASSO回歸中系數隨參數的變化Fig.4 Regression coefficient with alpha in LASSO
因此,應當選取合適的參數值以做出權衡。當alpha取值為10-2左右時,從最初的10個影響因素中挖掘出6個高影響因素,剔除掉4個低影響因素,在一定程度上簡化了指標體系結構。與此同時,當alpha取值0.012 17時模型的預測均方誤差控制在0.5以下,能夠兼顧預測精度與因素篩選。
運用LASSO變量篩選,最終選出了煤層埋藏深度、煤層厚度、煤層瓦斯含量、煤層揮發(fā)分產率、風量和煤層間距6個因素對瓦斯涌出量影響最大,系數結果見表2。其中影響最大的是煤層瓦斯含量和煤層埋藏深度,并具有顯著的正向作用;煤層厚度和煤層間距顯著度不如煤層揮發(fā)分產率和風量;滲透率、CH4濃度、日產量和鄰近層瓦斯含量數據對瓦斯涌出量的影響不顯著,沒有被選入模型。以LASSO算法篩選出的高影響因素為基礎,結合得到的回歸系數,對瓦斯涌出量進行預測。
表2 基于LASSO算法進行屬性選擇的系數結果
為更好地驗證預測效果,將LASSO預測結果與主成分分析預測結果進行對比,2種模型預測結果的相對誤差見表3,與實測值對比如圖6所示。由圖6可知,運用LASSO預測模型的最大相對誤差為9.2%,最小相對誤差為2.5%,平均相對誤差為6.5%。根據主成分選取原則,選取前4個成分(貢獻率91.378%>85%),進行回歸預測的最大相對誤差為24.7%,最小相對誤差為10%,平均相對誤差為14.4%,遠低于LASSO預測的精度。
表3 基于LASSO和主成分分析的瓦斯涌出量預測值比較Table 3 Comparison of predictod gas emission based on LASSO and principal component,regression
圖5 基于LASSO和主成分分析的瓦斯涌出量預測結果Fig.5 Prediction of gas emission based on LASSO and principal component regression
同時,引入平均相對變動值(Average Relative Variance,ARV)、均方根誤差(Root Mean Square Error,RMSE)作為誤差評判標準,綜合評價模型的預測精度和泛化能力。ARV值越小,預測模型泛化能力越強;RMSE值越小,預測模型的精度也越高。2種不同預測模型效果綜合對比見表4。
表4 2種預測模型綜合效果對比
結果顯示基于LASSO多元回歸模型預測精度更高,而且具有一定的泛化性。主成分分析的降維技術改變了數據的原始特征空間結構,得到的新的特征意義不夠明確,主成分中存在著噪聲和虛假分量,降低了特征的準確性和代表性,從而影響了預測結果。而LASSO模型通過剔除無關和冗余的特征選擇出的最優(yōu)特征子集,特征意義沒有改變,具有更好的可讀性,從整體上提高了預測結果的準確性。
1)LASSO回歸模型采用LARS算法對影響瓦斯涌出量的高維數據進行了降維處理,CH4濃度、日產量和鄰近層瓦斯含量對瓦斯涌出量的影響不顯著。
2)經與主成分分析法對比,LASSO特征篩選方法在信息篩選方面優(yōu)于主成分分析法,預測精度更高,泛化能力更強,為回采工作面瓦斯涌出預測模型的選擇提供了一種新的依據。
3)由于LASSO回歸模型和主成分分析法均屬于線性模型,未充分考慮特征中的非線性因素,采用非線性化的方法對模型進行改進,將是下一步研究的重點方向。