吳奉亮, 霍源, 高佳南
(1.西安科技大學 安全科學與工程學院,陜西 西安 710054;2.西部礦井開采及災害防治教育部重點實驗室,陜西 西安 710054)
瓦斯災害事故是威脅煤礦安全高效開采的主要因素[1-2],為遏制瓦斯事故的發(fā)生,準確、高效的煤礦瓦斯涌出量預測方法尤為重要[3]。由于煤礦瓦斯涌出量的各影響因子間呈現出非線性關系[4],線性預測方法難以得到滿意的預測結果。因此,灰色理論、神經網絡和支持向量機等非線性映射方法被廣泛應用于煤礦瓦斯涌出量預測。題正義等[5]基于模糊數學和灰色系統(tǒng)建立了瓦斯涌出量預測模型。李樹剛等[6]將因子分析與BP神經網絡相耦合,對瓦斯涌出量進行預測。付華等[7]提出了一種利用蟻群聚類算法優(yōu)化Elman神經網絡的瓦斯涌出量預測方法。孫林等[8]、董曉雷等[9]、張強等[10]利用支持向量機實現瓦斯涌出量預測;謝東海等[11]將未確知測度理論引入到瓦斯涌出量預測中。然而,煤礦瓦斯涌出量的影響因素眾多且復雜,灰色理論往往不能滿足預測精度要求;神經網絡的預測精度依賴于樣本容量,且存在訓練速度慢、泛化能力差的問題;基于支持向量機的預測方法對超參數的選取有較高要求[12]。
隨機森林算法具有參數少、學習速度快、適用于高維樣本、可有效避免過擬合、預測精度高等優(yōu)點[13-14],已被廣泛用于分類和回歸問題。在煤炭瓦斯防治領域,隨機森林算法已在瓦斯涌出量預測、煤與瓦斯突出預測等方面有所應用,如汪明等[15]建立了回采工作面瓦斯涌出量的隨機森林預測模型。溫廷新等[16]提出了一種將因子分析理論與隨機森林算法相結合的煤與瓦斯突出等級預測方法。鄭曉亮[17]將數據挖掘多重填補算法與隨機森林算法相結合進行煤與瓦斯突出預測。本文在文獻[15]的基礎上,分析了特征變量的影響權重,優(yōu)選出影響瓦斯涌出量的關鍵特征變量,建立隨機森林回歸模型,進行煤礦瓦斯涌出量預測,提高了預測精度和效率。
隨機森林算法是以Bagging算法思想為基礎建立的集成學習算法[18],用于數據的分類和回歸研究。該算法能夠有效分析高維非線性數據,具有較好的泛化能力和預測性能[14]。隨機森林算法用于研究連續(xù)變量的回歸問題,稱之為隨機森林回歸。
基于隨機森林回歸的煤礦瓦斯涌出量預測主要步驟如下[19]:
(1)采用bootstrap自助法重采樣技術,在原始訓練集中有放回地重復隨機抽取n個與原始訓練集樣本容量相等的新訓練樣本數據集,未被采樣選中的數據稱為袋外數據。
(2)從影響煤礦瓦斯涌出量的M個輸入特征中隨機選擇m個特征作為決策樹分枝節(jié)點的備選特征變量集合,根據分枝優(yōu)度準則,從集合中選取最優(yōu)特征進行節(jié)點分裂,構建決策樹。每棵瓦斯涌出量決策樹自由完整地生長而不剪裁。
(3)構造出n顆瓦斯涌出量決策樹,組成隨機森林回歸模型。取n顆決策樹輸出值的均值作為煤礦瓦斯涌出量預測結果,利用袋外數據(如殘差平方均值)評價回歸模型預測性能。
隨機森林回歸模型的超參數包括決策樹數目n和隨機選用的特征個數m,其取值對回歸模型的擬合和預測性能有重要影響[20]。若n值過小,會因回歸模型訓練不足而導致預測結果誤差偏大;若n值過大,則會增加模型的計算量。若m值偏小,回歸模型會因過擬合而導致預測精度降低;若m值偏大,則會降低模型運算速度。因此,構建隨機森林回歸模型時需對超參數n和m進行尋優(yōu)。
對超參數n和m進行尋優(yōu)時,首先設置超參數m值,回歸分析中通常默認其值為輸入特征變量數的1/3[21],在m值不變的條件下,得到不同n值下袋外數據殘差平方均值的變化情況。滿足隨機森林回歸模型穩(wěn)定性(殘差平方均值隨n值變化趨于穩(wěn)定值)且模型訓練效率較高時對應決策樹數目n值為最優(yōu)值。設n取最優(yōu)值不變,計算不同m值下袋外數據殘差平方均值和回歸模型的擬合優(yōu)度,選取殘差平方均值小、擬合優(yōu)度高的m值作為最優(yōu)值。
在采用bootstrap自助法重采樣形成隨機森林回歸模型訓練集的過程中,每次采樣約有36.8%的原始數據不會被取到,即袋外數據,它們將不參與回歸模型訓練,而是作為測試集對回歸模型的泛化能力、預測性能和特征重要性進行評估[22]。
在隨機森林回歸模型中,通常是以特征變量的隨機改變引起回歸模型的變化程度來描述特征變量的重要性,具體是采用袋外數據殘差平方均值的增加量(IncMSE)來表征特征變量的重要性,IncMSE越大,說明該特征變量對因變量越重要。對IncMSE進行歸一化處理,得到各特征變量對因變量的影響權重[23],本文用累計影響權重達到90%的部分特征變量代替煤礦瓦斯涌出量的全部特征變量,用于構建隨機森林回歸模型。
根據文獻[7],選用14個特征變量作為煤礦瓦斯涌出量預測模型的輸入變量:煤層瓦斯含量X1,埋深X2,煤厚X3,煤層傾角X4,采煤高度X5,日進度X6,采煤工作面長度X7,采出率X8,鄰近層瓦斯含量X9,鄰近層厚度X10,鄰近層間距X11,頂板管理方式X12,開采強度X13,層間巖性X14;輸出變量:瓦斯涌出量Y。獲取了20組原始數據,見表1。前16組原始數據用于訓練回歸模型,其余4組用于測試回歸模型。
表1 隨機森林回歸模型訓練和測試樣本
設參數m的默認值為特征變量總數的1/3,煤礦瓦斯涌出量的影響因子有14個,因此,m=5。設決策樹數目n為50,100,500,1 000,利用RStudio軟件平臺進行編程,建立隨機森林回歸模型,得到n取不同值時袋外數據殘差平方均值,如圖1所示。從圖1可知,當n超過200后,袋外數據殘差平方均值變化趨于平穩(wěn)。綜合考慮模型運算量和預測精度,取n為500。
圖1 n取不同值時的袋外數據殘差平方均值(14個特征變量)
取n=500固定不變,m取1~14(步長為1),建立隨機森林回歸模型,得到m取不同值時模型的擬合優(yōu)度與殘差平方均值,如圖2所示。從圖2可知,m為7時對應擬合優(yōu)度最大,殘差平方均值最小,因此,確定最優(yōu)值m=7。
圖2 m取不同值時的擬合優(yōu)度與殘差平方均值(14個特征變量)
對IncMSE值進行歸一化處理,得出各特征變量對煤礦瓦斯涌出量的影響權重及累計影響權重,如圖3和圖4所示。
圖3 各特征變量重要性及影響權重
從圖3可知,采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進度、開采強度、鄰近層間距等特征變量的影響權重較大,而鄰近層瓦斯含量、傾角、采煤工作面長度、層間巖性、頂板管理方式、鄰近層厚度等特征變量的影響權重相對較小。從圖4可看出,采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進度、開采強度、鄰近層間距等特征變量的累計影響權重為91.10%,按照累計影響權重達到90%以上的關鍵特征變量選擇規(guī)則,選取該8個特征變量作為影響煤礦瓦斯涌出量的主要因素。
圖4 累計影響權重
選取重要性排序前8的特征變量作為隨機森林回歸模型的輸入變量,在保證訓練樣本相同的前提下,構建隨機森林回歸模型。首先進行超參數尋優(yōu),結果如圖5和圖6所示。
圖5 n取不同值時的袋外數據殘差平方均值(8個特征變量)
圖6 m取不同值時的擬合優(yōu)度與殘差平方均值(8個特征變量)
從圖5、圖6可看出:n為500時,模型袋外數據殘差平方均值變化平穩(wěn);m為2時,模型擬合優(yōu)度最大,殘差平方均值最小。因此,基于特征選擇的隨機森林回歸模型的最優(yōu)超參數為n=500,m=2。
為了評價基于特征變量選擇的隨機森林回歸模型的預測性能,在保證預測樣本相同的前提下,與全部14個特征變量參與的隨機森林回歸模型的預測結果進行對比,結果見表2??煽闯觯?種情況下隨機森林回歸模型均具有較好的預測性能,進行特征變量選擇后,平均絕對誤差由0.22 m3/min下降到0.21 m3/min,平均相對誤差由3.55%下降到3.47%。基于特征變量選擇的隨機森林回歸模型不僅能夠保證較好的預測性能,而且降低了模型特征變量的維度,減少了原始數據獲取工作,提高了預測效率。
表2 瓦斯涌出量預測誤差對比
(1)研究了基于隨機森林回歸的煤礦瓦斯涌出量預測方法。通過計算袋外數據殘差平方均值和擬合優(yōu)度,確定隨機森林回歸模型的最優(yōu)超參數。
(2)通過特征變量重要性分析方法,從全部14個特征變量中優(yōu)選出采煤高度、煤厚、煤層瓦斯含量、采出率、埋深、日進度、開采強度、鄰近層間距8個關鍵的特征變量,建立特征選擇后的隨機森林預測模型。
(3)測試結果表明,采用全部特征變量和部分特征變量的隨機森林回歸模型均具有較好的擬合與預測效果。進行特征變量選擇后,模型的平均絕對誤差由0.22 m3/min下降到0.21 m3/min,平均相對誤差由3.55%下降到3.47%?;谔卣髯兞績?yōu)選的隨機森林回歸模型保持了較高的預測精度,同時提高了模型預測效率,更加適用于煤礦瓦斯涌出量預測。